日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

LeCun新作,方差正則,拋棄L1正則,稀疏編碼器不再崩潰

 漢無(wú)為 2022-01-10

圖片

  深度學(xué)習(xí)與圖網(wǎng)絡(luò)  

編輯:LRS

本文來(lái)自新智元微信公眾號(hào),原文鏈接https://mp.weixin.qq.com/s/StJED9x8YhEWAJKvDHhqFw

【導(dǎo)讀】最近LeCun又發(fā)新作,依然是崩潰問(wèn)題,依然是自監(jiān)督,這次提出了一個(gè)新的正則化方法:方差正則,可以有效防止編碼崩潰,還能提升重構(gòu)質(zhì)量,一張顯卡就能訓(xùn)!

神經(jīng)網(wǎng)絡(luò)中有一類學(xué)習(xí)特別受研究人員的青睞,那就是自監(jiān)督學(xué)習(xí)(self-supervised learning SSL)。

圖片

只要給足夠多的數(shù)據(jù),自監(jiān)督學(xué)習(xí)能夠在完全不需要人工標(biāo)注的情況下,學(xué)習(xí)到文本、圖像的表征,并且數(shù)據(jù)量越大、模型參數(shù)量越大,效果越好。

自監(jiān)督學(xué)習(xí)的工作原理也很簡(jiǎn)單:例如應(yīng)用場(chǎng)景是圖片的話,我們可以把SSL模型的輸入和輸出都設(shè)置為同一張圖片,中間加入一個(gè)隱藏層,然后開(kāi)訓(xùn)!

一個(gè)最簡(jiǎn)單的自編碼器AutoEncoder就弄好了。

圖片

通常來(lái)說(shuō)隱藏層的神經(jīng)元數(shù)量是要小于輸入圖片的,這樣訓(xùn)練后,自編碼器的中間隱藏層就可以作為圖片的表征向量,因?yàn)橛?xùn)練過(guò)程的目標(biāo)就是僅用該隱藏向量即可還原圖片。

自編碼器最初提出是基于降維的思想,但是當(dāng)隱層節(jié)點(diǎn)比輸入節(jié)點(diǎn)多時(shí),自編碼器就會(huì)失去自動(dòng)學(xué)習(xí)樣本特征的能力,此時(shí)就需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行一定的約束。

稀疏自編碼器應(yīng)運(yùn)而生,約束的出發(fā)點(diǎn)來(lái)自于:高維而稀疏的表達(dá)是好的。所以只需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行稀疏性約束即可。

常用的稀疏編碼方式當(dāng)然是L1正則。

最近LeCun提出了一種新的稀疏編碼協(xié)議可以防止編碼的崩潰,而不需要對(duì)解碼器進(jìn)行正則化處理。新的編碼協(xié)議直接對(duì)編碼進(jìn)行正則化,使每個(gè)潛碼成分(latent code component)在一組給定的輸入的稀疏表示上具有大于固定閾值的方差。

圖片

論文:https:///abs/2112.09214

開(kāi)源代碼:https://github.com/kevtimova/deep-sparse

此外,研究人員還探索了如何利用多層解碼器來(lái)有效訓(xùn)練稀疏編碼系統(tǒng)的方法,可以比線性字典(linear dictionary)模擬更復(fù)雜的關(guān)系。

在對(duì)MNIST和自然圖像塊(natural image patch)的實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明使用新方法學(xué)習(xí)到的解碼器在線性和多層情況下都有可解釋的特征。

與使用線性字典的自動(dòng)編碼器相比,使用方差正則化方法訓(xùn)練的具有多層解碼器的稀疏自動(dòng)編碼器可以產(chǎn)生更高質(zhì)量的重建,也表明方差正則化方法得到的稀疏表征在低數(shù)據(jù)量下的去噪和分類等下游任務(wù)中很有用。

論文中LeCun的作者單位也是從FAIR更名為Meta AI Research(MAIR)。

方差正則

給定一個(gè)輸入y和一個(gè)固定的解碼器D,研究人員使用FISTA算法(近似梯度方法ISTA的快速版)進(jìn)行推理來(lái)找到一個(gè)稀疏編碼z*,得到的z*可以使用D中的元素最好地重建輸入y。

解碼器D的權(quán)重是通過(guò)最小化輸入y和從z?計(jì)算出的重構(gòu)y之間的平均平方誤差(MSE)來(lái)訓(xùn)練得到的。

編碼器E的權(quán)重則是通過(guò)預(yù)測(cè)FISTA的輸出z?得到。

圖片

為了防止?jié)摯a的L1正則崩潰,研究人員加入了一個(gè)限制條件,確保每個(gè)潛碼方差大于預(yù)先設(shè)定的閾值。主要實(shí)現(xiàn)方法就是對(duì)能量函數(shù)加入一個(gè)正則化項(xiàng),從而能夠促使所有潛碼分量的方差保持在預(yù)設(shè)的閾值以上。

圖片

更具體地說(shuō),研究人員修改了推理過(guò)程中的目標(biāo)函數(shù)來(lái)最小化能量。

圖片

其中hinge項(xiàng)與L1懲罰項(xiàng)相抵消作為新的正則化項(xiàng),新的方程可以鼓勵(lì)每個(gè)潛伏代碼成分的方差保持在的閾值以上,從而可以防止?jié)摯a的L1正則崩潰,進(jìn)而無(wú)需對(duì)解碼器權(quán)重進(jìn)行正則化。

重構(gòu)項(xiàng)求和之后的梯度和潛碼z對(duì)應(yīng)。

圖片

對(duì)于線性解碼器來(lái)說(shuō),盡管hinge項(xiàng)不是光滑的凸函數(shù),但梯度是一條線(line)意味著hinge項(xiàng)在局部表現(xiàn)得像一個(gè)凸二次函數(shù)。

圖片

訓(xùn)練過(guò)程中,研究人員將編碼器E與解碼器D同時(shí)訓(xùn)練來(lái)預(yù)測(cè)FISTA推理計(jì)算的稀疏編碼。

同時(shí)訓(xùn)練的第一個(gè)原因是為了避免在解碼器訓(xùn)練完成后使用批量統(tǒng)計(jì)來(lái)計(jì)算編碼。事實(shí)上,應(yīng)該可以為不同的輸入獨(dú)立地計(jì)算編碼。

第二個(gè)原因是為了減少推理時(shí)間。編碼器和解碼器的訓(xùn)練完成后,編碼器可以直接計(jì)算輸入的稀疏表示,這樣就不需要用FISTA進(jìn)行推理,即編碼器可以進(jìn)行amoritized推理。

圖片

編碼器的正則項(xiàng)可以促使FISTA找到可以被編碼器學(xué)習(xí)到的編碼。在實(shí)驗(yàn)設(shè)置中,編碼器的預(yù)測(cè)通常被視為常數(shù)(constants),用作FIST編碼的初始值。

圖片

如果編碼器提供了一個(gè)好的初始值,則可以通過(guò)減少FISTA迭代的次數(shù)來(lái)減少推理時(shí)間。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中的編碼器為一個(gè)LISTA(Learned ISTA)編碼器,它的設(shè)計(jì)是為了模仿ISTA推理的輸出,類似于一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)。編碼器由兩個(gè)全連接層,一個(gè)偏置項(xiàng),以及ReLU激活函數(shù)組成。

圖片

線性解碼器的參數(shù)簡(jiǎn)單地說(shuō)是一個(gè)線性變換,將編碼映射到輸入數(shù)據(jù)的重構(gòu)維度上,在線性變換中沒(méi)有偏置項(xiàng)。

在非線性解碼器的情況下,使用一個(gè)大小為m的隱藏層和大小為l的輸入層(潛碼的size)的全連接網(wǎng)絡(luò),使用ReLU作為隱藏層的激活函數(shù)。將輸入代碼映射到隱含表征的層中有一個(gè)偏置項(xiàng),而將隱含表征映射到輸出的層沒(méi)有偏置項(xiàng)。

在推理過(guò)程中,編碼z被限制為非負(fù)值。MNIST實(shí)驗(yàn)中潛碼的維度為128,在ImageNet patch的實(shí)驗(yàn)中則是256,當(dāng)batch size為250時(shí),對(duì)于VDL中每個(gè)潛成分(latent component)的方差的正則化項(xiàng)來(lái)說(shuō)是足夠大的。

將FISTA的最大迭代次數(shù)K設(shè)置為200次,已經(jīng)足以實(shí)現(xiàn)一個(gè)效果不錯(cuò)的重構(gòu)模型了。

在自編碼器訓(xùn)練中,研究人員設(shè)置MNIST的epoch為200,image patch則為100。在SDL和SDL-NL實(shí)驗(yàn)中,將解碼器的全連接層W、W1和W2中的列的L2正則固定為1,并保存輸出平均能量最低的自編碼器。

研究人員還對(duì)SDL-NL和VDL-NL模型中的偏置項(xiàng)b1以及LISTA編碼器中的偏置項(xiàng)b增加了權(quán)重衰減,以防止其正則化項(xiàng)無(wú)限膨脹。

模型的訓(xùn)練只需要一塊NVIDIA RTX 8000 GPU卡,并且所有實(shí)驗(yàn)的運(yùn)行時(shí)間都在24小時(shí)以內(nèi)。

實(shí)驗(yàn)結(jié)果可以看到,對(duì)于兩個(gè)SDL和兩個(gè)VDL的字典元素(dictionary elements)來(lái)說(shuō),在稀疏度λ較低的情況下(0.001, 0.005)解碼器似乎可以學(xué)到方向、筆劃,甚至是是數(shù)字圖形中的一部分。

圖片

隨著λ值的提高,生成的圖像也越來(lái)越像一個(gè)完整的數(shù)字,完成了從筆劃到數(shù)字的演化。

在重構(gòu)質(zhì)量上,SDL和VDL模型的編碼器的曲線顯示了由未激活編碼(值為0)成分的平均百分比衡量的稀疏程度和由平均PSNR衡量的重建質(zhì)量之間的權(quán)衡。

圖片

在5個(gè)隨機(jī)種子上的測(cè)試集所衡量的重建質(zhì)量和預(yù)期相符,較高的稀疏度會(huì)導(dǎo)致更差的重建效果,但用文中提出的方差正則化方法訓(xùn)練出來(lái)的模型則會(huì)比SDL 模型在更高的稀疏程度下產(chǎn)生更好的重建效果,從而證實(shí)了方差正則化確實(shí)是有效的。

參考資料:

https:///abs/2112.09214

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多