前言主要內(nèi)容全文內(nèi)容總共分為六大部分:線型回歸、softmax 回歸、多層神經(jīng)網(wǎng)絡(luò)、模型選擇、必知技巧、思維導(dǎo)圖。 1 線型回歸預(yù)測氣溫、預(yù)測銷售額、預(yù)測商品價(jià)格等 模型:權(quán)重,偏差 模型訓(xùn)練:feed 數(shù)據(jù)學(xué)習(xí)模型參數(shù)值,使得誤差盡可能小 訓(xùn)練集、測試集、驗(yàn)證集、樣本、標(biāo)簽、特征 損失函數(shù):回歸常用平方誤差函數(shù); 優(yōu)化算法:小批量隨機(jī)梯度下降(每次選一小批樣本訓(xùn)練參數(shù)),每批樣本大小叫做 batch size 學(xué)習(xí)率:正數(shù) 超參數(shù):不是通過訓(xùn)練學(xué)出的,如學(xué)習(xí)率,批量大小 網(wǎng)絡(luò)輸出層只有一個(gè)神經(jīng)元節(jié)點(diǎn) 全連接層:輸出層中的神經(jīng)元和輸入層中各個(gè)輸入完全連接 基本要素:模型、訓(xùn)練數(shù)據(jù)、損失函數(shù)和優(yōu)化算法 2 softmax 回歸圖像分類、垃圾郵件識別、交易詐騙識別、惡意軟件識別等 softmax運(yùn)算符將輸出值變換成值為正,且和為1的概率分布 交叉熵?fù)p失函數(shù):更適合衡量兩個(gè)概率分布差異 softmax 回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò),輸出個(gè)數(shù)等于類別個(gè)數(shù) 3 多層神經(jīng)網(wǎng)絡(luò)激活函數(shù):一種非線性函數(shù) ReLU函數(shù):只保留正數(shù)元素,負(fù)數(shù)元素清零 sigmoid函數(shù):將元素值變換到0到1 tanh(雙曲正切):元素值變換到-1到1 4 模型選擇模型在訓(xùn)練集上更準(zhǔn)確時(shí),不代表在測試集上就一定準(zhǔn)確 訓(xùn)練誤差:訓(xùn)練數(shù)據(jù)集上表現(xiàn)出的誤差;泛化誤差:模型在測試集上表現(xiàn)的誤差期望 機(jī)器學(xué)習(xí)需要關(guān)注降低泛化誤差 模型選擇:評估若干候選模型的表現(xiàn)并從中選擇模型 候選模型可以是有著不同超參數(shù)的同類模型 驗(yàn)證集:預(yù)留訓(xùn)練和測試集之外的數(shù)據(jù); 折交叉驗(yàn)證:訓(xùn)練集分成份,共次輪詢訓(xùn)練集 欠擬合:模型無法得到較低的訓(xùn)練誤差 過擬合:模型的訓(xùn)練誤差遠(yuǎn)小于測試集上的誤差 模型復(fù)雜度:低,容易欠擬合;高,容易過擬合 數(shù)據(jù)集大?。河?xùn)練樣本少,尤其少于學(xué)習(xí)參數(shù)數(shù)時(shí),容易過擬合;層數(shù)多時(shí)盡量數(shù)據(jù)大些 5 必知技巧過擬合解決措施之一:權(quán)重衰減,常用L2正則 L2懲罰系數(shù)越大,懲罰項(xiàng)在損失函數(shù)中比重就越大 丟棄法(dropout):一定概率丟棄神經(jīng)元 正向傳播:沿著輸入層到輸出層的順序,依次計(jì)算并存儲模型的中間變量 反向傳播:從輸出層到輸入層參數(shù)調(diào)整過程 訓(xùn)練深度學(xué)習(xí)模型時(shí),正向傳播和反向傳播間相互依賴 數(shù)值穩(wěn)定性的問題:衰減和爆炸 層數(shù)較多時(shí)容易暴露,如每層都是一個(gè)神經(jīng)元的30層網(wǎng)絡(luò),如果權(quán)重參數(shù)為0.2,會(huì)出現(xiàn)衰減;如果權(quán)重參數(shù)為2,會(huì)出現(xiàn)爆炸 權(quán)重參數(shù)初始化方法:正態(tài)分布的隨機(jī)初始化;Xavier 隨機(jī)初始化。 6 思維導(dǎo)圖以上1-5節(jié)的完整思維導(dǎo)圖,制作出來方便大家更好學(xué)習(xí): 喜歡的朋友可以轉(zhuǎn)發(fā)關(guān)注女神一波哈,希望能多多支持女神! |
|