對問題建模
掌握將真實世界建模為機器學習算法的方法至關重要。在最抽象的層面,可以將問題建模為以下四類:
- 分類 Data classification
- 回歸 Regression analysis
- 聚類 Clustering
- 時序 Time Series
輸入/輸出建模
算法接受輸入,產生輸出,輸出也會受到算法本身的長短期記憶的影響。
輸入和輸出都是向量,本質是一個浮點數組
機器學習 vs 哈希 機器學習中的輸入和輸出可以類比為哈希中的 key 和 value 但機器學習更複雜一些 如果傳入一筆不在哈希表中的資料,會返回一個 NULL 但機器學習則會返回一個最接近的匹配的概率
理解訓練
批量學習 batch training :一次學習特定數目(batch size)的訓練資料,
在線學習 online training:每輸入訓練集中的一筆資料,就進行一次學習
監督學習 surprised training:給定了預期輸出
非監督學習 unsurprised training:沒有給定預期輸出
確定學習 deterministic training:相同的初始狀態,會以完全相同的方式運行
隨機學習 stochastic training:用到隨機數,相同的初始狀態,會得到不同的結果