日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

群友原創(chuàng):萬字長文入門 Pytorch 深度學(xué)習(xí)框架

 liqualife 2020-07-18
花下貓語:今天分享的文章來自于一位資深群友,是一篇很好的 Pytorch 入門路線介紹。我們公眾號沒有分享過這個領(lǐng)域的文章,之所以會分享它,主要是因為作者 silwer,他是最早加群的一批群友之一,當(dāng)時我要求申請者用一兩句話說明加群理由,他認真地寫了 300 字,我印象深刻!他還寫了不少原創(chuàng)文章,推薦大家關(guān)注:機器學(xué)習(xí)與推薦系統(tǒng)

劇照 | 《怦然心動》

作為目前越來越受歡迎的深度學(xué)習(xí)框架,pytorch 基本上成了新人進入深度學(xué)習(xí)領(lǐng)域最常用的框架。相比于 TensorFlow,pytorch 更易學(xué),更快上手,也可以更容易的實現(xiàn)自己想要的 demo。今天的文章就從 pytorch 的基礎(chǔ)開始,幫助大家實現(xiàn)成功入門。

首先,本篇文章需要大家對深度學(xué)習(xí)的理論知識有一定的了解,知道基本的 CNN,RNN 等概念,知道前向傳播和反向傳播等流程,畢竟本文重點是一篇實操性的教程。

其次,這篇文章我更想從一個總體性的視角展開,大家在學(xué)習(xí)的過程中更注重的應(yīng)該是在接觸新知識時,如何設(shè)計學(xué)習(xí)路線的一種思路分享。這種思路不一定適合所有人,但是肯定可以對你有所借鑒,你也可以基于此總結(jié)出來更適合自己的方法。

接下來我們從以下幾個步驟去幫助大家入門 pytorch 的實戰(zhàn)教程。

1. 開始一個簡單的分類器
2. 在 MNIST 上實現(xiàn)一個 cnn
3. 常用網(wǎng)絡(luò)層介紹
4. tensorboard 可視化
5. 以 vgg 為例實現(xiàn)深層網(wǎng)絡(luò)的一些小技巧
6. GPU 加速和保存加載模型
7. RNN 和 LSTM 實現(xiàn)分類和回歸
番外: 一個并行生成數(shù)據(jù)的例子告訴你,pytorch 未來的路該怎么做

這八個步驟,對應(yīng)了我的八篇學(xué)習(xí)筆記的文章,本文是從一個串講的思路來介紹學(xué)習(xí)路徑,對應(yīng)步驟的更多細節(jié)會在具體的文章中展示。在每個步驟介紹的最后和全文的結(jié)尾,我們也會給出文章的鏈接,大家可以針對性食用~




1. 開始一個簡單的分類器

我個人在學(xué)習(xí)一門新語言,一個新框架,一個新技術(shù)時,最優(yōu)先要保證的就是成就感反饋。以學(xué)習(xí) pytorch 為例,很多教程從張量開始。我自己也按照這種教程學(xué)習(xí)過,的確內(nèi)容非常全盡,但是有兩個原因,我自己不太推薦以這種方式入門:1)前期學(xué)習(xí)過于枯燥,沒有成就感;2)有的知識內(nèi)容屬于深度學(xué)習(xí)的基本功,過于贅述。

所以我覺得入門一個新知識的知識,最好是先搭起來結(jié)構(gòu),然后再去慢慢補充細節(jié)。因此我在這篇文章的第一部分,先選擇構(gòu)建一個簡單的分類器,讓大家知道一個 pytorch 下的代碼流程應(yīng)該是什么樣子。

學(xué)過 c 語言的朋友肯定知道,我們先學(xué)第一個代碼的時候,肯定是先來一個 hello world,而不是去研究第一行的 #include。

對于第一個 pytorch 程序而言,我們要做的是首先跑通整個流程,如果是一個簡單的分類器,數(shù)據(jù)集也就不能太復(fù)雜。因此,我們從三方面考慮:1)自定義生成一些點,分為兩類;2)學(xué)習(xí)如何構(gòu)建一個淺層的神經(jīng)網(wǎng)絡(luò);3)嘗試 pytorch 中的訓(xùn)練和測試過程。

1.1 自定義生成數(shù)據(jù)集

首先,自定義生成我們的數(shù)據(jù)集。利用 torch 自帶的 zeros,ones 這些方法,我們生成一些隨機的點,分為兩類。比如分別以(2,2)和(-2,-2)為均值,隨機生成一些隨機數(shù),作為兩類,這樣子我們就得到了我們想要的數(shù)據(jù)集。

1.2 學(xué)會構(gòu)建網(wǎng)絡(luò)的流程

其次,就是構(gòu)建一個淺層的神經(jīng)網(wǎng)絡(luò),這里我們給出一個代碼示例,大家了解一下最基礎(chǔ)的 pytorch 的網(wǎng)絡(luò)應(yīng)該如何構(gòu)建:



















class Net(torch.nn.Module): def __init__(self, n_feature, n_hidden, n_output): super(Net, self).__init__() self.n_hidden = torch.nn.Linear(n_feature, n_hidden) self.out = torch.nn.Linear(n_hidden, n_output)
def forward(self, x_layer): x_layer = torch.relu(self.n_hidden(x_layer)) x_layer = self.out(x_layer) x_layer = torch.nn.functional.softmax(x_layer) return x_layer

net = Net(n_feature=2, n_hidden=10, n_output=2)# print(net)
optimizer = torch.optim.SGD(net.parameters(), lr=0.02)loss_func = torch.nn.CrossEntropyLoss()

這個 Net 類,就是我們構(gòu)建的代碼框架,用它生成的對象就是一個我們可以用來訓(xùn)練和測試的網(wǎng)絡(luò)。這個類中,初始化函數(shù)中表示了每個網(wǎng)絡(luò)層的結(jié)構(gòu)設(shè)置,而 forward() 方法表示了每個層之間的交互順序和關(guān)系。

而 optimizer 就是優(yōu)化器,包含了需要優(yōu)化的參數(shù)有哪些,loss_func 就是我們設(shè)置的損失函數(shù)。

這個就像我們寫一個 hello,world 一樣,我們只需要知道自己該如何構(gòu)造一個網(wǎng)絡(luò)。當(dāng)我們需要調(diào)整的時候,就將其中對應(yīng)的模塊替換掉。

1.3 訓(xùn)練與測試

接下來就是訓(xùn)練與測試的階段。訓(xùn)練我們需要知道三句代碼是核心:




optimizer.zero_grad()    loss.backward()    optimizer.step()

這里的核心思路是,梯度清空,反向傳播,參數(shù)更新。分別對應(yīng)了這三句代碼的作用。在pytorch 中,梯度會保留,所以需要用 zero_grad() 來清空,然后利用損失函數(shù)反向傳播計算梯度,最后就是用我們定義的優(yōu)化器將每個需要優(yōu)化的參數(shù)進行更新。

測試階段就很簡單了,直接將輸入丟進去就可以看到預(yù)測結(jié)果。現(xiàn)在我們重新隨機生成一些數(shù)據(jù)點作為測試集,可以看到訓(xùn)練集對它的分類結(jié)果就很明顯。

至此,我們就完成了一個對于簡單分類器的描述。當(dāng)然,如果你對前面的文章沒有任何了解,可能會覺得這部分不夠入門。那么可以看一下我的第一篇筆記:pytorch學(xué)習(xí)筆記(1):開始一個簡單的分類器,這里詳細的介紹了如何實現(xiàn)一個簡單分類器的細節(jié)介紹。





2. 在 MNIST 上實現(xiàn)一個 cnn

完成了一個線性分類器后,我們的學(xué)習(xí)路線應(yīng)該是什么樣子呢?我覺得比較合適的做法是先改動 “hello,world” 的部分,讓我們看看把最直觀的部分進行修改,會有哪些變化。并且可以得到很直接的成就反饋。

做深度學(xué)習(xí),肯定最熟悉的就是 CNN 做圖片分類。在一張圖片上,通過卷積來一層層的提取特征,最終實現(xiàn)分類的效果。那么我們既然已經(jīng)知道如何實現(xiàn)一個分類器,接下來就來看看如何用 CNN 完成圖片的分類。

這里的數(shù)據(jù)集我們選擇 mnist,是大家經(jīng)常用來作為入門的圖片分類數(shù)據(jù)集,內(nèi)容是各種手寫數(shù)字的展示。在安裝 torch 的時候,大家參考的教程一般也會推薦安裝 torchvision。在這個之中給出了一個 dataset 的集合,其中包括了各種各樣的常見數(shù)據(jù)集,mnist 自然也是其中之一。

對于這些數(shù)據(jù)集的使用方法,主要是 root,transform 等幾個參數(shù),并不是很難。然后對應(yīng)的有一個 torch.data 中的 DataLoader 方法,可以用來讓數(shù)據(jù)按自己想要的 batch 生成。具體的如何并行式生成數(shù)據(jù),在本文的最后一部分會進行介紹。這里我們只需要知道可以使用 DataLoader 并行式按批生成數(shù)據(jù)。

核心的是如何構(gòu)建一個 CNN 網(wǎng)絡(luò)。我們前面學(xué)會了分類器,只使用了一個隱藏層進行 embedding 操作就可以了。那么如果要實現(xiàn) CNN,我們自然要加入卷積層,激活層,池化層這些操作。





























class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() self.conv1 = nn.Sequential( nn.Conv2d( in_channels=1, out_channels=16, kernel_size=5, stride=2, padding=2, ), nn.ReLU(), nn.MaxPool2d(2) )
self.conv2 = nn.Sequential( nn.Conv2d(16, 32, 5, 1, 2), nn.ReLU() )
self.out = nn.Linear(32 * 7 * 7, 10)
def forward(self, x): x = self.conv1(x) x = self.conv2(x) x = x.view(x.size(0), -1) output = self.out(x) return output

所以按照這個樣子,我們就可以改造前面簡單分類器的結(jié)構(gòu),生成我們現(xiàn)在的 CNN 結(jié)構(gòu)。從代碼中可以看到,將第一個卷積層設(shè)計為:卷積+激活+最大池化;第二個卷積層設(shè)計為:卷積+激活。最后跟上一個全連接層,實現(xiàn)整個 CNN 的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。

最終的網(wǎng)絡(luò)運行結(jié)果可以對 mnist 數(shù)據(jù)集達到 97% 以上的分類精度,可見 CNN 在圖片分類領(lǐng)域的確有獨到的優(yōu)勢。

現(xiàn)在我們通過適當(dāng)?shù)母脑鞂崿F(xiàn)了一個 CNN 在圖片分類上的應(yīng)用,具體的更多細節(jié)可以參考:pytorch學(xué)習(xí)筆記(2):在 MNIST 上實現(xiàn)一個 cnn

那么在完成了這一步的操作后,我們可能需要思考一點:如果我自己想去做一些更自定義的網(wǎng)絡(luò)結(jié)構(gòu)出來,該如何實現(xiàn)呢?我又怎么知道去修改哪里,以及修改成什么樣子呢?所以接下來需要了解的是 torch 都提供了哪些集成好的常用網(wǎng)絡(luò)層。




3. 常用網(wǎng)絡(luò)層介紹

通過兩個遞進的例子,我們已經(jīng)知道了該如何實現(xiàn)一個基本的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)。但是如前面提到的問題一樣,如果想改某一部分,應(yīng)該怎么改呢?

所以從學(xué)習(xí)的角度出發(fā)的話,現(xiàn)在應(yīng)該考慮的是介紹常用的網(wǎng)絡(luò)層都有哪些。然后我們就可以(成為一個調(diào)包俠。哈哈,入門肯定要從調(diào)包開始嘛~)開始針對自己想要設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)選擇合適的模塊啦~

在這部分我們從以下幾個方面去對 pytorch 提供的網(wǎng)絡(luò)層進行了介紹:

卷積層:自帶了一維,二維,三維等卷積函數(shù);
池化層:可選的有最大池化,平均池化等;
Dropout:有一維,二維等選擇;
BN層:是否加入 BN 層的操作;
激活函數(shù):elu,relu,sigmoid,tanh,softmax 等層可供選擇;
損失函數(shù):mse,CrossEntropy 等可供選擇。

總體來說這部分內(nèi)容,我簡單的給一個大綱,就不過多贅述了,具體的每部分的細節(jié)參數(shù)設(shè)置,以及一些幫助大家理解的實例都可以在這篇文章中進一步查看:pytorch學(xué)習(xí)筆記(3):常用網(wǎng)絡(luò)層介紹




4. tensorboard 可視化

現(xiàn)在我們具備了初步構(gòu)建自定義網(wǎng)絡(luò)結(jié)構(gòu)的能力,也可以完成在自帶數(shù)據(jù)集上進行訓(xùn)練和測試的操作。那么如何讓我們對訓(xùn)練過程中的性能有一個更直觀的認識呢?對網(wǎng)絡(luò)結(jié)構(gòu)如何進行可視化呢?數(shù)據(jù)集的內(nèi)容是什么樣子的?

這些功能我們都可以用一個名為 tensorboard 的工具來實現(xiàn),這個工具在 TensorFlow 中也很常用。

如何學(xué)習(xí)使用 tensorboard 呢?這部分我們建議從如下幾個步驟去進行:首先舉一個簡單的例子,讓代碼示例跑起來;然后將整個訓(xùn)練過程可視化出來;最后再展示如何可視化數(shù)據(jù)集的內(nèi)容以及網(wǎng)絡(luò)結(jié)構(gòu)流程。

4.1 run一個例子

這里我們選擇先運行一個官方教程給出的例子,了解如何使用 tensorboard 的基本流程:







from torch.utils.tensorboard import SummaryWriterwriter = SummaryWriter()x = range(100)for i in x:    writer.add_scalar('y=2x', i * 2, i)writer.close()

從這個流程中我們可以看到,引入了一個 SummaryWriter 類,然后生成一個 writer 對象,在 for 循環(huán)中,每次調(diào)用 add_scalar() 方法,往進添加內(nèi)容。

在完成這個代碼后,如果我們在終端中輸入:


tensorboard --logdir='runs'

我們會得到一副 y=2x 的斜線,這就相當(dāng)于揭示了 tensorboard 的本質(zhì)。每次將一個值傳入 ‘runs’ 文件夾中的文件中,然后在終端中去調(diào)用保存的數(shù)據(jù),產(chǎn)生我們想要的圖形。

這一步我們主要是理解上面的這個流程,那么我們就來看看該怎么替換想要換掉的模塊,來生成我們想要生成的圖形。

4.2 可視化 CNN 的訓(xùn)練數(shù)據(jù)

前面第二部分,我們定義了一個 CNN 來實現(xiàn)對圖片的分類效果。那么在訓(xùn)練過程中的 accuracy 和 loss 是如何變化的呢?















output = cnn(b_x)loss = loss_func(output, b_y)optimizer.zero_grad()loss.backward()optimizer.step()
if step % 50 == 0: test_output = cnn(test_x) pred_y = torch.max(test_output, 1)[1].data accuracy = float((pred_y == test_y.data.numpy()).astype(int).sum()) / float(test_y.size(0)) writer.add_scalar('Train/Accuracy', accuracy, step)
writer.add_scalar('Train/Loss', loss.item(), step)

這里我們可以看出來是訓(xùn)練部分的內(nèi)容,只是在后面加上了我們前面的一個步驟:添加了兩行 add_scalar() 方法。其實就是訓(xùn)練時每隔 50 步都進行一次測試,并將測試結(jié)果記錄下來,并且每一步的 loss 也都會保存下來。

所以到最后,我們在終端中輸入上面提到的:tensorboard —logdir=dir,就可以看到下面這幅圖:

4.3 圖片和模型的可視化

除了上面對數(shù)值的記錄,tensorboard 還提供了諸如圖片和模型等的可視化,相比于使用 add_scalar(),這里我們使用 add_image() 和 add_graph() 來實現(xiàn)對應(yīng)的功能。

add_image() 對圖片數(shù)據(jù)進行保存,每次輸入一個 batch 的數(shù)據(jù),也就是說 batch 有多大,其實相當(dāng)于可視化了多少的 image。

add_graph() 則是對模型結(jié)構(gòu)的保存,在可視化的時候,就可以對這些內(nèi)容進行自動展示。

這里我們主要是介紹概括性的方法與學(xué)習(xí)流程,具體的關(guān)于 tensorboard 的內(nèi)容,每個方法的參數(shù)設(shè)置,包括數(shù)據(jù)保存的路徑等內(nèi)容,大家可以進一步參考:pytorch學(xué)習(xí)筆記(4):tensorboard 可視化。





5. vgg 及一些 tricks

這一部分的內(nèi)容就比較簡單了,找一個比較經(jīng)典的深層網(wǎng)絡(luò)來實現(xiàn)一下,驗證一下我們之前的基礎(chǔ)。此外,再介紹一種方法來簡化深層網(wǎng)絡(luò)的構(gòu)造方法。

首先實現(xiàn)一個 vgg 本身并沒有太多難度,我們看一看 paper,就可以知道網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)置。我們不拘泥于 vgg,而是說一個深層次的網(wǎng)絡(luò)的構(gòu)成。

實現(xiàn)一個長的網(wǎng)絡(luò),本質(zhì)上還是按照前面的思路,一層層的把網(wǎng)絡(luò)堆疊起來。我們先看使用 Sequential 構(gòu)建一個卷積層的樣子:

這是一層的網(wǎng)絡(luò)樣子,我們根據(jù)自己要實現(xiàn)的網(wǎng)絡(luò)定義,比如參考 vgg 的 paper 內(nèi)容,定義了卷積層的各個參數(shù),加上 BN 層,加上 relu 進行激活。

整體就是我們定義好的一層,其它層以此類推,用我們前面介紹的常用網(wǎng)絡(luò)層就可以像搭積木一樣,把它們搭建起來。

所以按照前面的教程思路,一個深層的神經(jīng)網(wǎng)絡(luò),例如 vgg,本質(zhì)上是可以通過簡單的堆疊來實現(xiàn)的。最后我們在 forward 函數(shù)中,定義好如下內(nèi)容:



















def forward(self, x): x = self.conv1(x) x = self.conv2(x) x = self.conv3(x) x = self.conv4(x) x = self.conv5(x) x = self.conv6(x) x = self.conv7(x) x = self.conv8(x) x = self.conv9(x) x = self.conv10(x) x = self.conv11(x) x = self.conv12(x) x = self.conv13(x) x = x.view(x.size(0), -1)
output = self.out(x) return output

可以看到從內(nèi)容上就是前面的 CNN 的擴展,沒有技術(shù)上的新東西。但是也顯然易見,有點丑陋,寫這么長個 forward,而且還看起來都是重復(fù)的東西,程序員當(dāng)然不能容忍重復(fù)的內(nèi)容一直出現(xiàn)。

所以這里分為兩步我們?nèi)タ紤]如何簡化一個模型:sequential 以 list 的形式輸入各層的網(wǎng)絡(luò)結(jié)構(gòu);更加方便的生成各層網(wǎng)絡(luò)結(jié)構(gòu)的 list。具體的意思是什么呢?我們簡單的展開來講一下。

  1. 對一個網(wǎng)絡(luò)的設(shè)置而言,我們使用 Sequential 來定義我們想要的一層網(wǎng)絡(luò)。這里的一層往往指代卷積+激活+池化等,當(dāng)然不固定是這樣子。換句話說,一個 Sequential 里面本身就定義了不止一個網(wǎng)絡(luò),那么我們是否可以將所有網(wǎng)絡(luò)都放到一個 Sequential 里面來?答案是可以的!

  2. 對于一個 Sequential,我們可以將所有的網(wǎng)絡(luò)結(jié)構(gòu)都輸入進去,以動態(tài)參數(shù)的方式。也就是說,我們讓 Sequential 的輸入是這個形式:*[網(wǎng)絡(luò)層1,網(wǎng)絡(luò)層2,…,網(wǎng)絡(luò)層n]??梢钥吹?,是一個 list 前面加 *,就可以將 list 中的所有元素以參數(shù)的方式傳進去。

  3. 但是這樣輸入進來的參數(shù),需要一個非常非常長的 list。在定義這個 list 的時候,顯得我們的模型更加難看。所以我們需要一個優(yōu)雅的方式,來生成這樣一個 list,其中的每個元素都是我們想要的網(wǎng)絡(luò)層結(jié)構(gòu)。所以我們介紹的生成方式就是下述代碼:

















def make_layers(cfg, batch_norm=False):    layers = []    in_channels = 3    for v in cfg:        if v == 'M':            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]        else:            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)            if batch_norm:                layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]            else:                layers += [conv2d, nn.ReLU(inplace=True)]            in_channels = v    return nn.Sequential(*layers)
cfg = [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M']

這里就可以很直接的看到,最終生成的 layers 這個 list,就是我們想要的內(nèi)容,其中包含了我們需要的每個網(wǎng)絡(luò)層結(jié)構(gòu)。在 for 循環(huán)中就是我們生成的方式,按照在參數(shù) cfg 中定義的內(nèi)容,依次往 layers 中添加我們需要的內(nèi)容。數(shù)字表示該卷積層的輸出通道,字母 ‘M' 表示最大池化。

可以看到,以這種方式,我們就可以通過只調(diào)整 cfg 這個 list,最終實現(xiàn)目標(biāo)的深層次的神經(jīng)網(wǎng)絡(luò)的設(shè)計。更詳細的介紹和設(shè)計,可以參考我們之前的學(xué)習(xí)筆記:pytorch學(xué)習(xí)筆記(5):vgg 實現(xiàn)以及一些 tricks。




6. GPU 和如何保存加載模型

到了這一步,我們的網(wǎng)絡(luò)深度也加上來了,是時候考慮一下 GPU 加速的問題了。GPU 在深度學(xué)習(xí)中是無論如何也繞不過去的一個話題,好在 pytorch 在 GPU 的使用方面給了非常友好的接口,下面我們就看一下如何使用 GPU 加速,以及如何保存訓(xùn)練好的模型,到測試時再加載出來。

6.1 先看看 GPU 咋用吧

我們就來說一下 GPU 在 pytorch 中有多么簡單易用吧。首先如下簡單命令:


torch.cuda.is_available()

這條命令可以判讀你是否安裝好了 GPU 版本的 pytorch,或者你的顯卡是否可以使用,如果結(jié)果顯示 True,那我們就可以進行下一步了。

GPU 的使用在 pytorch 中,我們就記住三部分:遷移數(shù)據(jù),遷移模型,遷回數(shù)據(jù)。

首先遷移數(shù)據(jù)是指,我們需要將數(shù)據(jù)遷移到 GPU 上,這個時候就體現(xiàn)出顯存的重要性,顯存越大,就可以往進遷移的數(shù)據(jù)越多;

其次是遷移模型,也就是說將我們定義好的網(wǎng)絡(luò)模型也遷移到 GPU 上,這個時候就可以在 GPU 上對給定模型,利用遷移進來的數(shù)據(jù)進行訓(xùn)練和測試;

最后是遷回數(shù)據(jù),也就是說將測試好的結(jié)果再返回 CPU,進行下一步的其它處理,比如計算精度之類。

這里給一個小栗子來為大家看一下這三步:
















# 指定好用的 GPU 設(shè)備,如果是單卡,一般就是 0.device = 'cuda:0'
# 遷移數(shù)據(jù)images = images.to(device)labels = labels.to(device)
# 遷移網(wǎng)絡(luò),將我們定義好的網(wǎng)絡(luò) cnn 遷移到 GPU 中。cnn.to(device)
# 訓(xùn)練...# 測試... 生成測試結(jié)果 pred_y
# 遷回數(shù)據(jù),將 pred_y 再遷回 CPU。pred_y = pred_y.cpu()

通過這個例子,我們可以很清晰的看到如何使用 GPU 完成我們上所述的三個步驟。只要保證了將這三部分加入到你的代碼中,中間的訓(xùn)練和測試依然保持原樣,我們就實現(xiàn)了利用 GPU 加速的目的。

6.2 訓(xùn)練好的模型如何保存和加載呢?

關(guān)于 pytorch 中的模型保存,一般有兩種途徑:只保存網(wǎng)絡(luò)參數(shù),保存整個網(wǎng)絡(luò)。

首先要知道的一點是,在 pytorch 中所有的網(wǎng)路參數(shù)數(shù)據(jù)都是一個 dict,也就是網(wǎng)絡(luò)對象的 state_dict() 參數(shù)。那么我們?nèi)绻氡4嫦聛硇枰膬?nèi)容,其實在底層操作方面并不復(fù)雜。

現(xiàn)在來看如何保存模型,其實就一條語句:torch.save(content,path),就可以將需要的 content 保存到目標(biāo)的 path 中。這里唯一的需要思考的是如何區(qū)分只保存網(wǎng)絡(luò)參數(shù),還是保存整個網(wǎng)絡(luò)。

只保存網(wǎng)絡(luò)參數(shù)時,我們的 content 就是 cnn.state_dict(),如果保存整個網(wǎng)絡(luò),content 就是 cnn。下面兩行代碼分別是只保存參數(shù)和保存整個網(wǎng)絡(luò):



torch.save(cnn.state_dict(), PATH)torch.save(cnn, PATH)

可以看到保存的方式非常方便,一個函數(shù)就可以完成。那么對應(yīng)的,讀取的方式是什么呢?

分別用兩個不同的方法來進行讀?。簂oad_state_dict() 和 load()。

只看名稱也可以想到前者是讀取參數(shù),后者是讀取整個網(wǎng)絡(luò)。但是只讀取參數(shù)的話,我們需要提前定義好對應(yīng)的網(wǎng)絡(luò)對象,然后通過讀取參數(shù)的方式,為網(wǎng)絡(luò)的結(jié)構(gòu)中填充相應(yīng)的參數(shù)。

具體的如何使用 GPU 加速模型,如何存儲和讀取訓(xùn)練好的網(wǎng)絡(luò),細節(jié)的代碼和例子可以看:pytorch學(xué)習(xí)筆記(6):GPU 和如何保存加載模型




7. RNN 回歸

前面我們介紹了 CNN 的創(chuàng)建方式,常用的網(wǎng)絡(luò)層,基于此的基礎(chǔ)上,又介紹了一些其它的相關(guān)操作,比如 GPU 加速等?,F(xiàn)在我們來看系列教程的最后一部分,就是如何使用 RNN。

以 RNN 為例,我們構(gòu)建一個回歸器,以此來介紹 RNN 在 pytorch 中的使用方法,幫助大家入門 RNN 的操作過程。

7.1 RNN 參數(shù)

我們這里不再贅述 RNN 的定義和內(nèi)容,在本節(jié)后面的文章鏈接中,詳細的介紹了這一部分。我們在這里只說一下在 pytorch 中的 RNN 類可以設(shè)置的參數(shù)。

input_size:這個參數(shù)表示的輸入數(shù)據(jù)的維度。比如輸入一個句子,這里表示的就是每個單詞的詞向量的維度。
hidden_size :可以理解為在 CNN 中,一個卷積層的輸出維度一樣。這里表示將前面的 input_size 映射到一個什么維度上。
num_layers:表示循環(huán)的層數(shù)。舉個栗子,將 num_layers 設(shè)置為 2,也就是將兩個 RNN 堆疊在一起,第一層的輸出作為第二層的輸入。默認為 1。
nonlinearity:這個參數(shù)對激活函數(shù)進行選擇,目前 pytorch 支持 tanh 和 relu,默認的激活函數(shù)是 tanh。
bias:這個參數(shù)表示是否需要偏置項,默認為 True。
batch_first:這個是我們數(shù)據(jù)的格式描述,在 pytorch 中我們經(jīng)常以 batch 分組來訓(xùn)練數(shù)據(jù)。這里的 batch_size 表示 batch 是否在輸入數(shù)據(jù)的第一個維度,如果在第一個維度則為 True,默認為 False,也就是第二個維度。
dropout:這里就是對每一層的輸出是否加一個 dropout 層,如果參數(shù)非 0,那么就會加上這個 dropout 層。值得注意的是,對最后的輸出層并不會加,也就是這個參數(shù)只有在 num_layers 參數(shù)大于 1 的時候才有意義。默認為 0。
bidirectional:如果為 True,則表示 RNN 網(wǎng)絡(luò)為雙向結(jié)構(gòu),默認為 False。

這些參數(shù)的給定,我們就可以輕松的去設(shè)置我們想要的 RNN 結(jié)構(gòu)。此處 input_size 和 hidden_size 是兩個必須傳入的參數(shù),需要讓網(wǎng)絡(luò)知道將什么維度的輸入映射到什么維度上去。其余的參數(shù)都給了比較常用的默認值。

7.2 回歸器:用 sin 預(yù)測 cos

在這里我們舉一個非常容易理解的例子。也不去折騰什么復(fù)雜數(shù)據(jù)集,我們同樣使用一個簡單的自定義數(shù)據(jù)集:sin 函數(shù)作為 data,cos 函數(shù)作為 label。因為重點是學(xué)習(xí) RNN 的使用,所以我們無需測試集,只看訓(xùn)練的擬合程度,判斷是否成功收斂就可以了。

首先給出來我們定義的 RNN 結(jié)構(gòu),再對其中的細節(jié)進行解讀:

















class RNN(nn.Module):    def __init__(self):        super(RNN, self).__init__()        self.rnn = nn.RNN(            input_size=1,            hidden_size=32,            batch_first=True,        )        self.out = nn.Linear(32, 1)
def forward(self, x, h_state): r_out, h_state = self.rnn(x, h_state) outs = [] for time_step in range(r_out.size(1)): outs.append(self.out(r_out[:, time_step, :])) return torch.stack(outs, dim=1), h_state

我們先看第一部分 RNN 的結(jié)構(gòu)上,定義了三個參數(shù):input_size,hidden_size,batch_first。

input_size 我們設(shè)置為 1,是因為每次輸入的數(shù)據(jù)上,只有一個點的位置,數(shù)據(jù)是一維數(shù)據(jù);

hidden_size 設(shè)置為 32,表示我們想要將這個數(shù)據(jù)映射到 32 維的隱空間上,這個值由自己進行選擇,不要太小,也不要太大(太小會導(dǎo)致擬合能力較差,太大會導(dǎo)致計算資源消耗過多);

batch_first 設(shè)為 True,表示我們的數(shù)據(jù)格式中,第一個維度是 batch。

最終,根據(jù)前面對參數(shù)的介紹,可以得知,我們構(gòu)建了一個單層的 RNN 網(wǎng)絡(luò),輸入的每個 time_step 上的數(shù)據(jù)都是一維的,通過將其映射到 32 維的隱空間上,來發(fā)掘?qū)?biāo)簽數(shù)據(jù)的擬合關(guān)系。

接下來我們看一下 forward 函數(shù)中的內(nèi)容,與 CNN 的 forward 中有些不一樣。在 CNN 中,我們直接將對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)往一起拼接就可以,這里多了一些奇怪的參數(shù)。這是為什么呢?

從第一行開始看起,首先 RNN 我們都知道,每個 time_step 的循環(huán)中,都是將上一個循環(huán)的隱狀態(tài)和當(dāng)前的輸入結(jié)合起來作為輸入。那么 r_out 和 h_state 就是當(dāng)前狀態(tài)的輸出和隱狀態(tài)。

第二行的 outs 是一個空列表,用來存儲什么內(nèi)容呢?我們往下看。

后面是一個 for 循環(huán),循環(huán)的次數(shù)取決于 r_out.size(1)。這個參數(shù)表示什么呢?r_out 我們知道是輸出,這個輸出的格式應(yīng)該和輸入是相同格式(batch,time_step,hidden_size),所以 r_out.size(1) 表示了這批數(shù)據(jù)的 time_step 的大小,也就是這批數(shù)據(jù)有多少個點。將對應(yīng)的數(shù)據(jù)進行 self.out() 操作,也就是將 32 維的數(shù)據(jù)再映射到 1 維,并將結(jié)果 append 到 outs 中。

這里我們就知道前面定義的 outs 列表用來裝什么數(shù)據(jù)了,最后將結(jié)果 stack 起來,作為 forward 的返回值。

這里看一下訓(xùn)練過程中的擬合情況:

藍色線條展示了模型的擬合過程,可以看到最終逐漸擬合到了目標(biāo)的 cos 曲線上(紅色線條)。

本部分更多的細節(jié),包括 RNN 原理的簡單介紹,對應(yīng)的網(wǎng)絡(luò)的運行細節(jié)都在:第七篇文章 中可以看到。除此之外,這篇文章中還進一步給出了一個利用 LSTM 實現(xiàn)一個對 mnist 數(shù)據(jù)集進行分類的例子,幫助我們可以學(xué)習(xí) pytorch 中 LSTM 的使用方法,非常建議看一下這篇文章:pytorch學(xué)習(xí)筆記(7):RNN 和 LSTM 實現(xiàn)分類和回歸。




番外篇:如何進階

番外篇不是說不重要的一步,而是更多的想表達我對學(xué)習(xí)流程為何這么設(shè)置的思路。通過前面的文章,大家肯定可以算是基本入門了 pytorch 的使用,至少不會出現(xiàn)想要實現(xiàn)一個網(wǎng)絡(luò)時,手足無措的情況。但是如果從學(xué)好這個框架出發(fā),這肯定是遠遠不夠的。

那么我們應(yīng)該如何去學(xué)好這個非常流行的框架呢?我們首先應(yīng)該是按照前面文章的思路一樣,將整體流程的思維架設(shè)起來,知道應(yīng)該怎么入手,可能大神還會給你說如何底層加速,如何優(yōu)化細節(jié),如何并行式加載數(shù)據(jù)等。但是我們?nèi)绻簧蟻砭蛯W(xué)的那么細,可能現(xiàn)在還云里霧里,不知道那種細節(jié)性的文章在說什么。

所以這里我們給出一個并行式加載數(shù)據(jù)的例子,讓大家知道,在架設(shè)起來對 pytorch 的整體性認知以后,我們就可以很輕松的去針對性補充自己需要學(xué)會的內(nèi)容。

這里給出一篇文章的例子,講解了如何提高數(shù)據(jù)加載的速度,讓我們可以利用 pytorch 自帶的 DataLoader 類,自定義設(shè)置自己的數(shù)據(jù)加載類型,讓你的數(shù)據(jù)生成不再成為訓(xùn)練的瓶頸。具體的細節(jié)可以看:一個例子告訴你,在 pytorch 中應(yīng)該如何并行生成數(shù)據(jù)。

重點不是這篇文章,而是授之以漁。按照這類方法,大家就可以進一步去優(yōu)化自己的知識體系,補充對細節(jié)上的提升。大家通過本篇系列文章的匯總教程以后,就可以很輕松的去學(xué)習(xí)其它對 pytorch 技能進行優(yōu)化的進階文章了。




總結(jié)

這是一篇對 pytorch 進行入門教程的文章,不僅僅是對框架的學(xué)習(xí),這樣的學(xué)習(xí)方法也可以借鑒到其它的框架,編程語言等中去。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多