趕緊收藏!西瓜書《機器學習》完整筆記來了

2019-09-23 11:02:42

來自:開源最前線(ID:OpenSourceTop) 


西瓜書《機器學習》是機器學習的必讀書籍。作為該領域的入門教材,在內容上儘可能涵蓋機器學習基礎知識的各方面。 適合大學三年級以上的理工科本科生和研究生,以及具有類似背景的對機器學 習感興趣的人士



雖然周志華教授已經儘可能少地使用數學知識,但是,還是沒法避免必要的數學知識填充,基礎較為薄弱的學生仍然覺得不好理解,這裏猿妹和大家推薦一份《機器學習》的學習筆記——Machine-learning-learning-notes


這份筆記出自一名叫Vay-keen的深圳大學學生,該筆記記錄了其在學習這本書的過程中的理解思路以及一些有助於消化書內容的拓展知識。



目前,這份筆記已經在Github上獲得 1421 個Star,360 個Fork,共提交了 24 次commits(Github地址:https://github.com/Vay-keen/Machine-learning-learning-notes


筆記共分為17個部分,筆記的前一部分主要是對機器學習預備知識的概括,包括機器學習的定義/術語、學習器性能的評估/度量以及比較,之後將主要對具體的學習算法進行理解總結。



筆記詳細到什麼程序呢?這裏我們附上一小段筆記展示:


線性迴歸


迴歸就是通過輸入的屬性值得到一個預測值,利用上述廣義線性模型的特徵,是否可以通過一個聯繫函數,將預測值轉化為離散值從而進行分類呢?線性機率迴歸正是研究這樣的問題。對數機率引入了一個對數機率函數(logistic function),將預測值投影到0-1之間,從而將線性迴歸問題轉化為二分類問題




若將y看做樣本為正例的概率,(1-y)看做樣本為反例的概率,則上式實際上使用線性迴歸模型的預測結果器逼近真實標記的對數機率。因此這個模型稱為“對數機率迴歸”(logistic regression),也有一些書籍稱之為“邏輯迴歸”。下面使用最大似然估計的方法來計算出w和b兩個參數的取值,下面只列出求解的思路,不列出具體的計算過程






最常見的性能度量

在迴歸任務中,即預測連續值的問題,最常用的性能度量是“均方誤差”(mean squared error),很多的經典算法都是採用了MSE作為評價函數,想必大家都十分熟悉。


在分類任務中,即預測離散值的問題,最常用的是錯誤率和精度,錯誤率是分類錯誤的樣本數佔樣本總數的比例,精度則是分類正確的樣本數佔樣本總數的比例,易知:錯誤率+精度=1。





●編號879,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

開源最前線

已同步到看一看
在看



熱點新聞