科學網

imelee 2017-04-16

展開全文

最近在研究Deep Learning在個性化推薦中的應用，由于DL跟神經網絡有很大的關系，索性開篇就介紹下神經網絡和自己所了解到的知識。接觸ML時間不是很長，難免有描述不當的地方，旨在于交流學習，有啥想法直接后面回復。

在這篇博文中，你將會看到如下知識：

神經網絡的基本模型，前向神經網絡(Feed-forward neural network)，General Feed-forward NN 的組件，優(yōu)化目標函數，逆向誤差傳播算法。

“ 根據一個簡化的統(tǒng)計，人腦由百億條神經組成 ― 每條神經平均連結到其它幾千條神經。通過這種連結方式，神經可以收發(fā)不同數量的能量。神經的一個非常重要的功能是它們對能量的接受并不是立即作出響應，而是將它們累加起來，當這個累加的總和達到某個臨界閾值時，它們將它們自己的那部分能量發(fā)送給其它的神經。大腦通過調節(jié)這些連結的數目和強度進行學習。盡管這是個生物行為的簡化描述。但同樣可以充分有力地被看作是神經網絡的模型。 ”

人的大腦是非常復雜的，特別是大腦神經系統(tǒng)，可以說沒有它，大腦就是一些組織，細胞而已。在機器學習領域，對神經網絡的研究應該是希望從大腦的工作機制和神經系統(tǒng)結構中獲得啟發(fā)，一方面可以設計高效的學習算法，讓機器也能夠對問題進行大規(guī)模學習，另一方面可以從神經元的并行工作方式中得到啟發(fā)，設計高效的并行計算算法，讓機器擁有更強的實時處理大規(guī)模數據的能力。

在這里就不介紹生物上的神經網絡了，一來是不懂，二來這里的神經網絡一概指機器學習領域的神經網絡模型（人工神經網絡），如果你對這個生物的神經網絡感興趣的話，可以參考《A Brief Introduction to Neural Networks · D. Kriesel》，這篇文章有講到不同類型的神經網絡，大多數跟生物神經系統(tǒng)的基本結構有關系。在機器學習領域的神經網絡一般會指前向傳播神經網絡 (Feed-forward neural network)，這種模型較為通用。

人工神經網絡的基本模型

前向神經網絡

上圖描述的是一個目前研究最為成熟Shallow 結構的神經網絡（只含有單層隱藏層神經元的結構）。第一層為輸入層 (input layer )，第二層稱為隱藏層 ( hidden layer )，最后一層為輸出層( output layer )。神經元之間都是由低層出發(fā)，終止于高層神經元的一條有向邊進行連接，每條邊都有自己的權重。每個神經元都是一個計算單元，如在Feed-forward neural network 中，除輸入層神經元外，每個神經元為一個計算單元，可以通過一個計算函數 f() 來表示，函數的具體形式可以自己定義，現在用的較多的是感知器計算神經元，如果你對感知器有所了解的話，理解起來會容易很多。可以計算此時神經元所具有的能量值，當該值超過一定閥值的時候神經元的狀態(tài)就會發(fā)生改變，神經元只有兩種狀態(tài)，激活或未激活。在實際的人工神經網絡中，一般是用一種概率的方式去表示神經元是否處于激活狀態(tài)，可以用 h(f) 來表示，f 代表神經元的能量值，h(f) 代表該能量值使得神經元的狀態(tài)發(fā)生改變的概率有多大，能量值越大，處于激活狀態(tài)的概率就越高。到這部分你已經接觸到了關于神經網絡的幾個基本術語，下面用更加規(guī)范的符號來表示，神經元的激活值(activations) f() ，表示計算神經元的能量值, 神經元的激活狀態(tài) h(f) ，h 表示激活函數。

激活函數有好幾種形式，這里列舉兩種，

$f(z) = .frac{1}{1+.exp(-z)}.$ $f(z) = .tanh(z) = .frac{e^z - e^{-z}}{e^z + e^{-z}},$

General Feed-forward NN 的組件

假設有包涵有N個樣本的數據集 = { (X1,T1) , (X2,T2) , (X3,T3)...... (Xn,Tn)} ，其中T的取值可以根據你的任務不同而不同，比如你要用神經網絡進行回歸分析，T ( target value)就是一個連續(xù)值，如果你面對的是一個回歸問題的話，T 的取值就是離散的，比如二分類問題 T = { 0,1 }，輸入樣本的每個觀測值(Observation) Xi 都具有相同的維度數量 m ，與之對應的輸入層的神經元個數也為（m + 1）個，包含有一個偏置神經元( bais unit )。

這里采用了Andrew Ng的 Deep Learning tutorials 上的符號系統(tǒng)。n_{l表示神經網絡具有的總層數，} $L_{n_l}$ 表示最后一層神經網絡，下標就是表示第幾層，L₁表示第一層，也就是輸入層。低層與高層的神經元之間都是通過帶權重的單向邊進行連接，(W,b)表示整個神經網絡中的參數，W 表示連邊的權重，b表示偏置。在上圖中(W,b) = (W⁽¹⁾,b⁽¹⁾,W⁽²⁾,b⁽²⁾)，上角標表示第 i 層與（i + 1）層之間的權重系數矩陣（如無特殊說明，下文中的上角標都表示層號，當然對于系數矩陣和神經元來說，上角標的意思是不太一樣的）， $W^{(l)}_{ij}$ 表示第L層的第 j 個神經元與第 L + 1 層的第 i 個神經元之間的權重系數。在上圖的例子中 $W^{(1)} .in .Re^{3.times 3}$ ， $W^{(2)} .in .Re^{1.times 3}$ 。該部分采用向量化的表述方式，這個為后面的向量化編程會帶來非常大的好處，不用一個一個的去記哪個跟哪個權重系數對應，直接一個矩陣，非常簡潔。整個神經網絡可以用一個函數 h_W,b(x) 來表示。

接著來看下跟每個神經元都相關的符號， $a^{(l)}_i = f(z^{(l)}_i)$ 表示第L層的第i個神經元的激活狀態(tài)(activations)，該過程是非線性操作，這個概念非常重要，要牢記。當L = 1的時候，可以認為 $a^{(1)}_i = x_i$ 就是等于輸入神經元的值， $z^{(l)}_i$ 表示該神經元具有的能量值。

到此為止，你已經可以掌握一個神經網絡中的基本符號和表示方法，盡快熟悉這些符號，在你的腦子里面神經網絡已經不再是抽象的神經元之間的連接方式了，可以通過上述的符號來刻畫，這對后面公式的理解會有很大的幫助。

下面來看下神經網絡的基本成分( neural network components)

對線性模型 (Linear Model ) 比較了解的人應該非常熟悉這個公式

線性模型可以表示成有限個基函數(basis function)的線性融合，基函數的形式可以自己定義，舉個簡單的例子，可以是關于輸入 m 次冪的多項式 x^m（順便吐槽一下，這里敲公式實在麻煩）。實際上神經網絡也可以看成是一些線性函數的疊加，不過中間有了一個激活函數，情況就變得跟線性模型不一樣了。還是以FNN（Feed-forward Neural Network）為例對除輸入層之外的每個神經元進行 $.textstyle z_i^{(2)} = .sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i$ 的操作就可以得到神經元的能量值，每個神經元的激活狀態(tài)就可以表示成 $a^{(l)}_i = f(z^{(l)}_i)$ ( 非線性操作 ) ，下面對整個網絡進行同樣的操作就可以得到

$.begin{align}a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) ..a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) ..a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) ..h_{W,b}(x) &= a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) .end{align}$

上述過程的向量化表示，這里的f和h函數就都變成了向量函數，如 f([z₁,z₂,z₃]) = [f(z₁),f(z₂),f(z₃)]

$.begin{align}z^{(2)} &= W^{(1)} x + b^{(1)} ..a^{(2)} &= f(z^{(2)}) ..z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} ..h_{W,b}(x) &= a^{(3)} = f(z^{(3)}).end{align}$

到該部分，你已經基本掌握了一個神經網絡的結構，如何執(zhí)行得到輸出，但是還差如何去訓練得到我們的參數 (W,b)。上面都是以單隱藏層的神經網絡而且輸出只有一個神經元，如果你知道了如何去訓練這個簡易的神經網絡，那下面這個看起來更復雜一些的例子你同樣知道該如何去訓練。

優(yōu)化目標函數

這個是在用機器學習方式為問題建模的第二部，確定你的損失函數(Loss Function)，也就是你的優(yōu)化目標。該過程會涉及到一些基本的優(yōu)化方法，統(tǒng)計學概念以及一些實際的應用經驗。當然如果你跟我一樣是剛接觸機器學習(Machine Learning)不久的話，了解了一些關于梯度優(yōu)化方法的話，你就能掌控這里的一切啦。

假設我們有m個樣本 $.{ (x^{(1)}, y^{(1)}), .ldots, (x^{(m)}, y^{(m)}) .}$ ，這里采用的是二次平方和最小化 (最小二乘)作為損失函數(關于損失函數的類型可以參考《統(tǒng)計學習方法》- 李航) ，用該公式表示損失函數 $.begin{align}J(W,b; x,y) = .frac{1}{2} .left.| h_{W,b}(x) - y .right.|^2..end{align}$ ，在實際優(yōu)化目標函數需要表示成如下形式，比上面的公式多了一個 "+"好后面的內容，該項也稱作 weight decay，該部分是起正則作用，防止過擬合。

$.begin{align}J(W,b)&= .left[ .frac{1}{m} .sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) .right] + .frac{.lambda}{2} .sum_{l=1}^{n_l-1} .; .sum_{i=1}^{s_l} .; .sum_{j=1}^{s_{l+1}} .left( W^{(l)}_{ji} .right)^2 ..&= .left[ .frac{1}{m} .sum_{i=1}^m .left( .frac{1}{2} .left.| h_{W,b}(x^{(i)}) - y^{(i)} .right.|^2 .right) .right] + .frac{.lambda}{2} .sum_{l=1}^{n_l-1} .; .sum_{i=1}^{s_l} .; .sum_{j=1}^{s_{l+1}} .left( W^{(l)}_{ji} .right)^2.end{align}$

之所以采用二次損失函數，我想應該是為了構建一個具有 convex 性質的目標函數，便于使用梯度優(yōu)化的方法尋找最優(yōu)值。下圖就是在參數(w,b)下的誤差曲面(error surface)。

下面公式表示了權重系數更新的方式，也就是為了找到一個使得目標函數最小值的系數 (w,b) 。在整個優(yōu)化的過程中，最重要的就是如何求解不同 $W^{(l)}_{ij}$ 的梯度信息，為了求解這個東西，又要來一個新的概念了，逆誤差傳播(error backpropagation)學習算法。機器學習的問題總是會這樣，找到優(yōu)化目標以后，就需要相應的學習算法尋找最優(yōu)值，此時的系數就是我們所要選擇的模型的參數了。

$.begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - .alpha .frac{.partial}{.partial W_{ij}^{(l)}} J(W,b) ..b_{i}^{(l)} &= b_{i}^{(l)} - .alpha .frac{.partial}{.partial b_{i}^{(l)}} J(W,b).end{align}$

$.begin{align}.frac{.partial}{.partial W_{ij}^{(l)}} J(W,b) &=.left[ .frac{1}{m} .sum_{i=1}^m .frac{.partial}{.partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) .right] + .lambda W_{ij}^{(l)} ...frac{.partial}{.partial b_{i}^{(l)}} J(W,b) &=.frac{1}{m}.sum_{i=1}^m .frac{.partial}{.partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}).end{align}$

逆向誤差傳播算法 (error backpropagation)

如其名，該方法就是讓輸出層的y 與輸入 x 的誤差往回傳播。因為我們在求每個參數的梯度的時候是通過對真值與預測值之間的誤差項求導得到的，對于輸出神經元還可以做到，但是我們無法獲取隱藏層的真值，這就造成了隱藏層的神經元梯度不可求的尷尬局面。還好領域大牛們想到了這種方式，讓輸出層的誤差往回傳播，計算出底層神經元的激活狀態(tài)要為該誤差付出多大的責任，也可以理解成該神經元的誤差值，用 $.delta^{(l)}_i$ 表示， $.delta^{(n_l)}_i$ 表示輸出層神經元的誤差。

逆誤差傳播算法執(zhí)行過程：

1，先執(zhí)行一次前向傳播，計算出每一層的神經元的激活值 $a^{(l)}_i = f(z^{(l)}_i)$ ，直到輸出層為止

2，對于每一個輸出層神經元，采用如下方式計算誤差(實際上在Andrew的資料中省略了很多推到部分，該部分我后面會放上，你們先理解個大概過程)

$.begin{align}.delta^{(n_l)}_i= .frac{.partial}{.partial z^{(n_l)}_i} .;.; .frac{1}{2} .left.|y - h_{W,b}(x).right.|^2 = - (y_i - a^{(n_l)}_i) .cdot f'(z^{(n_l)}_i).end{align}$

3，對于較低層的神經元的誤差用如下公式進行表示， l = n_l-1, n_l-2, n_l-3, .ldots, 2

$.delta^{(l)}_i = .left( .sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} .delta^{(l+1)}_j .right) f'(z^{(l)}_i)$

4，關于不同參數的梯度

$.begin{align}.frac{.partial}{.partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j .delta_i^{(l+1)} ...frac{.partial}{.partial b_{i}^{(l)}} J(W,b; x, y) &= .delta_i^{(l+1)}..end{align}$

下面來看下 $.delta^{(l)}_i$ 項的具體推導過程。

PS:其實要想更好的理解該推導過程可以參考《Pattern Recognition and Machine Learning》中5.3節(jié)部分關于估計誤差函數梯度的內容，由于里面采用的符號系統(tǒng)跟Andrew的是相反的，我就沒有放上來，借用了一個簡易的推導過程。

摘自《Deep Learning 教程中文版》--鄧侃老師主導，各路英雄好漢共同翻譯

下面來看一個利用神經網絡擬合不同函數(Linear Regression)的例子，你可以在《Pattern Recognition and Machine Learning》的5.1節(jié)中找到。4副圖分別對應四個不同的函數，紅色的實線表示利用神經網絡擬合的函數，圓點表示原函數生成的樣本點，虛線表示不同的神經元在對應于不同 x 取值的輸出值，幾條虛線經過線性添加后得到的就是擬合后的曲線。

總結：

1，簡易的神經網絡結構并不復雜，但在實際訓練一個神經網絡的時候是會遇見很多問題的，比如選擇線上梯度下降還是Batch梯度下降，隱藏層神經元個數的選擇，是選擇多層神經網絡還是單層。這些都需要多多實踐才行。

2，從理論上來講，神經網絡是可以擬合任何函數，但實際上并非如此。就我個人的實際經驗來看，對于某些數據神經網絡是失敗的。

3，模型不是萬能，還需要做很多功課。

#梯度信息在訓練 NN 中的使用

#Batch 梯度上升和線上梯度上升的比較

理解了該部分的神經網絡知識對后面理解深度神經網絡會很大幫助，包括其中的優(yōu)化方法，能量模型（Energy-based Model），以及RBM（EBM的一個特例）

參考文獻：

《Pattern Recognition and Machine Learning》

Andrew Ng's Wiki Page http://deeplearning./wiki/index.php/Neural_Networks

http://www./billhsu/archive/2008/08/30/60455.html

Geoff Hinton's Coursera Lectures https://d396qusza40orc./neuralnets/lecture_slides%2Flec1.pdf