預測股市前,先來學學預測模型,但什麼是預測?

預測是預言家神來一筆的告訴我們"明牌"

還是根據資料來有跡可循的推測,未來結果

我想我們絕對不是預言家

但是卻是可以學習如何跟著數據走,去堆測股市的走向,

於是機器學習,就是我們最好的學習方向

機器學習的基礎術語 Machine Learning 

假設我們要撰寫個關於"垃圾信件分類 spam" 和 "非垃圾分類no spam",這個就是"標籤label",也就是我們想要預測的結果,"輸出變數output variable",亦稱之為目標變數"target variable", "應變數dependent variable" or"醒應變數response variable"

那每一筆信件都是我們的"輸入變數input"

而信件的內容,含有我們想要找出來"預測結果",所需要的"特徵features",

然而我們可以將資料先行收集好後,每一筆資料我們稱之為"樣本sample"

 

機器學習的流程

將"樣本sample"收集後,分類成沒被AI看過的"測試集test set" & 給AI訓練用的"訓練集training set"

AI訓練的過程中,我們使用"訓練集training set",來最小化"cost funton" or "error rate",或更積極地說,要提高"value funtion"

然後用沒被AI看過的"測試集test set",評估訓練過程的結果與進度

"輸入變數input" -> "Machine learning" -> "ML Model"

機器學習的分類

以信件分類為例,若是給予既定的篩選條件"銀行","購物"等字眼,讓程式依照出現這些關鍵字去分類信件,這是基於規則式的系統,

問題是我們得時常去維護"規則"

但是若是用機器學習,則是餵與實際的信件,讓他自行學習與分類,訓練成模型,並讓該模型自行正確的分類信件

其中機器學習可以分成

1.監督式學習-是指我們餵給訓練模型的資料內,含有"標籤label",也就是先讓模型知道我們要的是什麼,但缺點也是,若我們沒要標籤的資料,新的垃圾信件,就有可能無法辨識

"輸入變數input" with "標籤label" -> "Supervised learning" -> "ML Model"

2.非監督式學習-先不標註資料是什麼,讓machine自行去分類,這樣才有可能隨著資料的演進,垃圾信件的變化,machine都有可能學會好的分類,

"輸入變數input" without "標籤label" -> "UnSupervised learning" -> "ML Model"

3.半監督式學習-則是兼顧上述兩種學習方式

 

Reference

  1. Chugn-Yi's ML
  2. Tommy Huang Machine Learning bagging, boosting & adaboosting 
  3. Tommy Huang Machine Learning introduction
  4. Jason Cheng Machine Learning
  5. xgboosting 原理
  6. Chih-Wei Gradient Bootsting簡介
  7. 跟上AI的前言知識
  8. CH Tseng Decision Tree
  9. 雞雞與兔兔的工程世界
  10. Pandora123 Coursera Learing日記
  11. 三十不哭
arrow
arrow
    文章標籤
    ML Machine Learning 機器學習
    全站熱搜

    Cheng yichung 發表在 痞客邦 留言(0) 人氣()