BP(Back Propagation)是深度學習神經網絡的理論核心,本文通過兩個例子展示手動推導BP的過程。在一元方程的情況下,鏈式法則比較簡單,假設存在下面兩個函數:那么x的變化最終會影響到z的值,用數學符號表示如下: 
 在多元方程的情況下,鏈式法則稍微復雜一些,假設存在下面三個函數: 因為s的微小變化會通過g(s)和h(s)兩條路徑來影響z的結果,這時z對s的微分可以表示如下: 這就是鏈式法則的全部內容,后面用實際例子來推導BP的具體過程。做了一個簡單的網絡,這可以對應到鏈式法則的第一種情況,如下圖所示:其中圓形表示葉子節(jié)點,方塊表示非葉子節(jié)點,每個非葉子節(jié)點的定義如下,訓練過程中的前向過程會根據這些公式進行計算: 這個例子中,我們是想更新w1、b1、w2三個參數值,假如用lr表示learning rate,那么它們的更新公式如下: 在訓練開始之前,b1、w1、w2都會被初始化成某個值,在訓練開始之后,參數根據下面兩個步驟來進行更新:
- 先進行一次前向計算,這樣可以得到y(tǒng)1、y2、y3、loss的值
- 再進行一次反向計算,得到每個參數的梯度值,進而根據上面的公式(13)、(14)、(15)來更新參數值
下面看下反向傳播時的梯度的計算過程,因為梯度值是從后往前計算的,所以先看w2的梯度計算: 把w2、w1、b1的梯度計算出來之后,就可以按照公式(13)、(14)、(15)來更新參數值了,下面用OneFlow按照圖1搭建一個對應的網絡做實驗,代碼如下:import oneflow as of import oneflow.nn as nn import oneflow.optim as optim
class Sample(nn.Module): def __init__(self): super(Sample, self).__init__() self.w1 = of.tensor(10.0, dtype=of.float, requires_grad=True) self.b1 = of.tensor(1.0, dtype=of.float, requires_grad=True) self.w2 = of.tensor(20.0, dtype=of.float, requires_grad=True) self.loss = nn.MSELoss()
def parameters(self): return [self.w1, self.b1, self.w2]
def forward(self, x, label): y1 = self.w1 * x + self.b1 y2 = y1 * self.w2 y3 = 2 * y2 return self.loss(y3, label)
model = Sample()
optimizer = optim.SGD(model.parameters(), lr=0.005) data = of.tensor(1.0, dtype=of.float) label = of.tensor(500.0, dtype=of.float)
loss = model(data, label) print('------------before backward()---------------') print('w1 =', model.w1) print('b1 =', model.b1) print('w2 =', model.w2) print('w1.grad =', model.w1.grad) print('b1.grad =', model.b1.grad) print('w2.grad =', model.w2.grad) loss.backward() print('------------after backward()---------------') print('w1 =', model.w1) print('b1 =', model.b1) print('w2 =', model.w2) print('w1.grad =', model.w1.grad) print('b1.grad =', model.b1.grad) print('w2.grad =', model.w2.grad) optimizer.step() print('------------after step()---------------') print('w1 =', model.w1) print('b1 =', model.b1) print('w2 =', model.w2) print('w1.grad =', model.w1.grad) print('b1.grad =', model.b1.grad) print('w2.grad =', model.w2.grad) optimizer.zero_grad() print('------------after zero_grad()---------------') print('w1 =', model.w1) print('b1 =', model.b1) print('w2 =', model.w2) print('w1.grad =', model.w1.grad) print('b1.grad =', model.b1.grad) print('w2.grad =', model.w2.grad) 這段代碼只跑了一次forward和一次backward,然后調用step更新了參數信息,最后調用zero_grad來對這一輪backward算出來的梯度信息進行了清零,運行結果如下:------------before backward()--------------- w1 = tensor(10., requires_grad=True) b1 = tensor(1., requires_grad=True) w2 = tensor(20., requires_grad=True) w1.grad = None b1.grad = None w2.grad = None ------------after backward()--------------- w1 = tensor(10., requires_grad=True) b1 = tensor(1., requires_grad=True) w2 = tensor(20., requires_grad=True) w1.grad = tensor(-4800.) b1.grad = tensor(-4800.) w2.grad = tensor(-2640.) ------------after step()--------------- w1 = tensor(34., requires_grad=True) b1 = tensor(25., requires_grad=True) w2 = tensor(33.2000, requires_grad=True) w1.grad = tensor(-4800.) b1.grad = tensor(-4800.) w2.grad = tensor(-2640.) ------------after zero_grad()--------------- w1 = tensor(34., requires_grad=True) b1 = tensor(25., requires_grad=True) w2 = tensor(33.2000, requires_grad=True) w1.grad = tensor(0.) b1.grad = tensor(0.) w2.grad = tensor(0.) 用一個非常簡單的conv來舉例,這個conv的各種屬性如下: 在這個簡單的網絡中,z節(jié)點表示一個avg-pooling的操作,kernel是2x2,loss采用均方誤差,下面是對應的公式:前傳部分同上一節(jié)一樣,直接看反傳過程,目的是為了求w0、w1、w2、w3的梯度,并更新這四個參數值,以下是求w0梯度的過程: 下面是求w1、w2、w3梯度的過程類似,直接寫出結果:用OneFlow按照圖3來搭建一個對應的網絡做實驗,代碼如下:import oneflow as of import oneflow.nn as nn import oneflow.optim as optim
class Sample(nn.Module): def __init__(self): super(Sample, self).__init__() self.op1 = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=(2,2), bias=False) self.op2 = nn.AvgPool2d(kernel_size=(2,2)) self.loss = nn.MSELoss()
def forward(self, x, label): y1 = self.op1(x) y2 = self.op2(y1) return self.loss(y2, label)
model = Sample()
optimizer = optim.SGD(model.parameters(), lr=0.005) data = of.randn(1, 1, 3, 3) label = of.randn(1, 1, 1, 1)
loss = model(data, label) print('------------before backward()---------------') param = model.parameters() print('w =', next(param)) loss.backward() print('------------after backward()---------------') param = model.parameters() print('w =', next(param)) optimizer.step() print('------------after step()---------------') param = model.parameters() print('w =', next(param)) optimizer.zero_grad() print('------------after zero_grad()---------------') param = model.parameters() print('w =', next(param))
輸出如下(里面的input、param、label的值都是隨機的,每次運行的結果會不一樣):------------before backward()--------------- w = tensor([[[[ 0.2621, -0.2583], [-0.1751, -0.0839]]]], dtype=oneflow.float32, grad_fn=<accumulate_grad>) ------------after backward()--------------- w = tensor([[[[ 0.2621, -0.2583], [-0.1751, -0.0839]]]], dtype=oneflow.float32, grad_fn=<accumulate_grad>) ------------after step()--------------- w = tensor([[[[ 0.2587, -0.2642], [-0.1831, -0.0884]]]], dtype=oneflow.float32, grad_fn=<accumulate_grad>) ------------after zero_grad()--------------- w = tensor([[[[ 0.2587, -0.2642], [-0.1831, -0.0884]]]], dtype=oneflow.float32, grad_fn=<accumulate_grad>) 1.http://speech.ee./~tlkagk/courses.html2.https://speech.ee./~hylee/index.php3.https://www./c/HungyiLeeNTU
|