預測股市前,先來學學預測模型,但什麼是預測?
預測是預言家神來一筆的告訴我們"明牌"
還是根據資料來有跡可循的推測,未來結果
我想我們絕對不是預言家
但是卻是可以學習如何跟著數據走,去堆測股市的走向,
於是機器學習,就是我們最好的學習方向
機器學習的基礎術語 Machine Learning
假設我們要撰寫個關於"垃圾信件分類 spam" 和 "非垃圾分類no spam",這個就是"標籤label",也就是我們想要預測的結果,"輸出變數output variable",亦稱之為目標變數"target variable", "應變數dependent variable" or"醒應變數response variable"
那每一筆信件都是我們的"輸入變數input"
而信件的內容,含有我們想要找出來"預測結果",所需要的"特徵features",
然而我們可以將資料先行收集好後,每一筆資料我們稱之為"樣本sample"
機器學習的流程
將"樣本sample"收集後,分類成沒被AI看過的"測試集test set" & 給AI訓練用的"訓練集training set"
AI訓練的過程中,我們使用"訓練集training set",來最小化"cost funton" or "error rate",或更積極地說,要提高"value funtion"
然後用沒被AI看過的"測試集test set",評估訓練過程的結果與進度
"輸入變數input" -> "Machine learning" -> "ML Model"
機器學習的分類
以信件分類為例,若是給予既定的篩選條件"銀行","購物"等字眼,讓程式依照出現這些關鍵字去分類信件,這是基於規則式的系統,
問題是我們得時常去維護"規則"
但是若是用機器學習,則是餵與實際的信件,讓他自行學習與分類,訓練成模型,並讓該模型自行正確的分類信件
其中機器學習可以分成
1.監督式學習-是指我們餵給訓練模型的資料內,含有"標籤label",也就是先讓模型知道我們要的是什麼,但缺點也是,若我們沒要標籤的資料,新的垃圾信件,就有可能無法辨識
"輸入變數input" with "標籤label" -> "Supervised learning" -> "ML Model"
2.非監督式學習-先不標註資料是什麼,讓machine自行去分類,這樣才有可能隨著資料的演進,垃圾信件的變化,machine都有可能學會好的分類,
"輸入變數input" without "標籤label" -> "UnSupervised learning" -> "ML Model"
3.半監督式學習-則是兼顧上述兩種學習方式
Reference