CVPR 2018 | 伯克利等提出無監(jiān)督特征學(xué)習(xí)新方法，代碼已開源

漢無為 2018-05-15

展開全文

AI 前線導(dǎo)讀：本文編譯自伯克利、香港中文大學(xué)、亞馬遜聯(lián)合發(fā)表的論文《Unsupervised Feature Learning via Non-Parametric Instance Discrimination》，已經(jīng)被 CVPR 2018 接收，這是 AI 前線的第 31 篇論文導(dǎo)讀。

在有類別標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器可以捕獲明顯的類間視覺相似性，而不需要人為引導(dǎo)。這篇論文研究的是這種情況是否可以擴(kuò)展到傳統(tǒng)的監(jiān)督學(xué)習(xí)領(lǐng)域之外：可不可以僅僅通過讓單個實(shí)例的的特征具有判別性，來學(xué)習(xí)一個好的特征表示，捕捉實(shí)例間的相似性，而不是類間的。

作者將這個想法描述成實(shí)例級別的非參數(shù)分類問題，使用噪聲對比估計(jì)來應(yīng)對大量實(shí)例類別帶來的計(jì)算挑戰(zhàn)。實(shí)驗(yàn)結(jié)果顯示，在無監(jiān)督學(xué)習(xí)設(shè)置下，該方法在現(xiàn)有的 ImageNet 分類問題上的表現(xiàn)相比于其他方法得到了大幅提升。在訓(xùn)練數(shù)據(jù)更多，網(wǎng)絡(luò)架構(gòu)更好的情況下，該方法也可以不斷地顯著提高表現(xiàn)性能。通過微調(diào)學(xué)習(xí)到的特征，算法進(jìn)一步在半監(jiān)督學(xué)習(xí)和目標(biāo)識別任務(wù)上取得了更好的結(jié)果。非參數(shù)模型非常緊湊：每張圖片 128 維特征，對于 100 萬張圖像，此方法只需要 600M 存儲空間，算法在運(yùn)行時可以進(jìn)行快速的最近鄰檢索。

更多干貨內(nèi)容請關(guān)注微信公眾號“AI 前線”，（ID：ai-front）

介紹

隨著深度神經(jīng)網(wǎng)絡(luò)的崛起，尤其是卷積神經(jīng)網(wǎng)絡(luò)，為計(jì)算機(jī)視覺領(lǐng)域帶來了重大突破。大多數(shù)模型是通過監(jiān)督學(xué)習(xí)訓(xùn)練的，需要完整標(biāo)注的大量數(shù)據(jù)集。然而，獲取標(biāo)注數(shù)據(jù)的代價(jià)是十分高的，在某些情況下甚至是不可行的。因此在近幾年，無監(jiān)督學(xué)習(xí)受到了越來越多的關(guān)注。

我們非監(jiān)督學(xué)習(xí)的想法源自于對目標(biāo)識別任務(wù)的監(jiān)督學(xué)習(xí)結(jié)果的觀察。在 ImageNet 數(shù)據(jù)集上，top-5 分類誤差遠(yuǎn)遠(yuǎn)低于 top-1 分類誤差，而 softmax 輸出的可能性第二高的結(jié)果與測試圖像視覺相關(guān)性極高。

圖 1 對于一張類別為“美洲豹”的圖像，訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器中得分最高的幾類往往是視覺相關(guān)的，例如“美洲虎”和“非洲獵豹”。數(shù)據(jù)中的明顯相似性拉近了這些類之間的距離。我們的無監(jiān)督方法將類標(biāo)級別的監(jiān)督信息應(yīng)用到極致，學(xué)習(xí)出能夠區(qū)分單個實(shí)例的特征。

我們提出了一個問題：是否能夠通過純粹的判別學(xué)習(xí)來得到一個能夠反應(yīng)實(shí)例間明顯相似性的度量？如果我們學(xué)習(xí)判別不同的實(shí)例，即使沒有語義類別的標(biāo)注，我們也能得到能捕捉實(shí)例間明顯相似性的表示。

然而我們面臨一個主要的挑戰(zhàn)，即我們現(xiàn)在的“類別”數(shù)目，變成了整個訓(xùn)練集。例如 ImageNet，會成為 120 萬類而不是 1000 類。單純在 softmax 層擴(kuò)展到更多類是不可取的。我們通過用噪聲對比估計(jì)（NCE）估計(jì)完整的 softmax 分布，然后通過近似正則化方法來穩(wěn)定學(xué)習(xí)過程。

過去衡量非監(jiān)督學(xué)習(xí)的有效性通常依賴線性分類器，例如 SVM。然而如何能保證通過訓(xùn)練學(xué)習(xí)到的特征在未知的測試任務(wù)上是線性可分的呢？

我們認(rèn)為對于訓(xùn)練和測試任務(wù)都應(yīng)該采用非參數(shù)的方法。我們將實(shí)例級判別視作度量學(xué)習(xí)問題，其中實(shí)例之間的距離（相似度）以非參數(shù)的方式由特征直接計(jì)算。也就是說，每個實(shí)例的特征被存儲在離散的存儲組中，而不是網(wǎng)絡(luò)中的權(quán)重。在測試時，我們使用基于 K- 近鄰（KNN）對學(xué)習(xí)到的度量進(jìn)行分類。我們的訓(xùn)練和測試是一致的，因?yàn)槟Ｐ偷膶W(xué)習(xí)和評價(jià)都涉及圖像之間的相同度量空間。實(shí)驗(yàn)結(jié)果顯示，我們的方法在 ImageNet 1K 數(shù)據(jù)庫上的 top-1 準(zhǔn)確率達(dá)到了 46.5%，在 Places205 數(shù)據(jù)庫上達(dá)到了 41.6%。

算法模型

我們的目標(biāo)是學(xué)習(xí)一個無監(jiān)督內(nèi)嵌函數(shù)：

f 是深度神經(jīng)網(wǎng)絡(luò)，參數(shù)為θ，將圖片 x 映射為特征 v。這一內(nèi)嵌函數(shù)為圖像 x 和 y 的空間引入一個度量：

一個好的內(nèi)嵌函數(shù)應(yīng)該能將具有視覺相似性的圖像映射到度量空間相近的位置。

我們的無監(jiān)督特征學(xué)習(xí)方法為“實(shí)例級別判別”。我們將每張圖片實(shí)例視作屬于它自己的一類，然后訓(xùn)練分類器來區(qū)分不同的實(shí)例類別。

??圖 2 非監(jiān)督特征學(xué)習(xí)方法框圖。我們使用 CNN 的骨干結(jié)構(gòu)將每張圖像編碼成一個特征矢量，隨后被投影到一個 128 維的空間，并進(jìn)行 L2 正則化。最優(yōu)特征內(nèi)嵌函數(shù)通過實(shí)例級判別學(xué)習(xí)得到，通過嘗試在 128 維的單位球面上最大程度地分散訓(xùn)練樣本的特征。

非參數(shù) softmax 分類器

參數(shù)分類器

假設(shè)我們有 n 張圖，屬于 n 類，以及它們的特征 v1,…vn。在傳統(tǒng)的參數(shù) softmax 中，對于圖像 x 的特征 v，它被歸為 i 類的概率為： ??

其中 wj 是類別 j 的權(quán)重向量，wTv 衡量 v 與 j 類實(shí)例的匹配程度。

非參數(shù)分類器

公式（1）中，問題在于權(quán)重向量 w 作為類別原型，阻礙了實(shí)例間的對比。

我們提出公式（1）的非參數(shù)變體，用 vTv 取代 wTv。那么 v 屬于 i 類的概率為： ?

學(xué)習(xí)目標(biāo)就變成了最大化聯(lián)合概率：

?或等同于最小化它的負(fù)對數(shù)似然值：

存儲組

要計(jì)算（2）式中的概率，需要用到所有圖像的特征。如果每次都對這些特征進(jìn)行計(jì)算，計(jì)算量太大，我們采取一個特征存儲組 V 來存儲特征。假設(shè) fi 為圖像 xi 輸入網(wǎng)絡(luò) fθ的特征，在每一次學(xué)習(xí)迭代中，fi 和網(wǎng)絡(luò)參數(shù)θ通過隨機(jī)梯度下降優(yōu)化。隨后更新 V 中對應(yīng)實(shí)例的特征，將 vi 更新為 fi。我們將存儲組 V 中的所有表示初始化為單元隨機(jī)矢量。

從類別權(quán)重矢量 wj 到特征表示 vj 的概念變化是很重要的。原始的 softmax 方程中的{wj}只對訓(xùn)練類別有效。因此它們無法泛化到新類別，或者新的實(shí)例。當(dāng)我們?nèi)サ暨@些權(quán)重矢量后，我們的學(xué)習(xí)目標(biāo)完全關(guān)注于特征表示和它所引入的度量，可以在測試時用于任何新的實(shí)例。在計(jì)算方面，我們的非參數(shù)方法消除了計(jì)算和存儲權(quán)重矢量梯度的需求，使模型更易擴(kuò)展至大型數(shù)據(jù)應(yīng)用場景。

噪聲對比估計(jì)

計(jì)算公式（2）中的非參數(shù) softmax 的成本十分高，尤其是類別數(shù)量很大時。因此我們采用噪聲對比估計(jì)（noise-contrastive estimation，NCE）來估計(jì)全部的 softmax。

我們將 NCE 進(jìn)行一定的修改，使其更適合我們的模型。為了解決需要與訓(xùn)練集中所有實(shí)例計(jì)算相似度這一難題，我們將多類別分類問題變成一系列二分類問題，二分類任務(wù)需要判別數(shù)據(jù)樣本和噪聲樣本。在我們的模型中，存儲組中的特征 v 對應(yīng)第 i 個樣例的概率為：

其中 Zi 是正則化常數(shù)。我們將噪聲分布設(shè)置為均勻分布：

我們假設(shè)噪聲樣本比數(shù)據(jù)樣本要多 m 倍，那么樣本 i 的特征是 v 的后驗(yàn)概率則為：

我們估測的訓(xùn)練目標(biāo)是最小化數(shù)據(jù)樣本和噪聲樣本的負(fù)對數(shù)似然分布：

其中 Pd 代表實(shí)際數(shù)據(jù)分布。對于 Pd，v 是對應(yīng)圖像 xi 的特征，而對于 Pn，v’是另外一張圖像的特征，根據(jù)噪聲分布 Pn 隨機(jī)采樣得到。在我們的模型中，v 和 v’都從無參數(shù)存儲組 V 中采樣得到。

我們將 Zi 視作常數(shù)，通過蒙特卡洛估計(jì)來計(jì)算它，以減少計(jì)算量：

NCE 方法將計(jì)算復(fù)雜度從每樣本 O(n) 降到了 O(1)。雖然降低幅度很大，但是我們的實(shí)驗(yàn)依然能夠產(chǎn)生不錯的結(jié)果。

近端正則化

與傳統(tǒng)的分類不同，我們的每一個類別下只有一個實(shí)例。因此每一個訓(xùn)練 epoch 每一類都只訪問一次。因此，學(xué)習(xí)過程由于隨機(jī)采樣波動會產(chǎn)生大幅震蕩。我們采用近段優(yōu)化方法并且引入一個額外項(xiàng)鼓勵訓(xùn)練機(jī)制的平滑性。在第 t 次迭代時，數(shù)據(jù) xi 的特征表示從網(wǎng)絡(luò)中計(jì)算得到：

所有表示的存儲組存儲在上一次迭代中：

對于 Pd 中的正樣本，損失函數(shù)為：

隨著學(xué)習(xí)收斂，不同迭代之間的差距逐漸消失，增加的損失減少至最原始的一個。通過近段正則化，我們最終的目標(biāo)函數(shù)變?yōu)椋?/p>

圖 3 近段正則化的效果。原始的目標(biāo)函數(shù)值震蕩幅度很大，并且收斂很慢，而正則化的目標(biāo)函數(shù)則有更平滑的學(xué)習(xí)動態(tài)。

加權(quán) k- 最近鄰分類器

要分類測試圖像 x，我們首先計(jì)算它的特征 f=fθ(x)，然后將它和存儲組中的所有圖像的內(nèi)嵌函數(shù)對比，使用余弦相似度 si=cos(vi, f)。前 k 個近鄰，用 Nk 表示，隨后被用于加權(quán)投票進(jìn)行預(yù)測。類別 c 會獲得一個總權(quán)重：

其中αi 是近鄰 xi 的貢獻(xiàn)權(quán)重，與相似度相關(guān)。

實(shí)驗(yàn)

我們通過 4 組實(shí)驗(yàn)來驗(yàn)證我們的方法。第一組是在 CIFAR-10 數(shù)據(jù)庫上，對比我們的非參數(shù) softmax 和參數(shù) softmax。第二組在 ImageNet 上，與其他無監(jiān)督學(xué)習(xí)方法對比。最后兩組實(shí)驗(yàn)分別進(jìn)行半監(jiān)督學(xué)習(xí)和目標(biāo)檢測任務(wù)，以證明我們的方法學(xué)習(xí)到的特征的泛化能力。

參數(shù) vs. 非參數(shù) softmax

我們在 CIFAR-10 數(shù)據(jù)庫上對比參數(shù)和非參數(shù)方法，CIFAR-10 含有 50000 個訓(xùn)練實(shí)例，一共 10 類。我們使用 ResNet18 作為主干網(wǎng)絡(luò)，將其輸出特征映射成 128 維矢量。我們基于學(xué)習(xí)到的特征表示來評價(jià)分類有效性。常用方法是用學(xué)習(xí)到的特征訓(xùn)練一個 SVM 分類器，然后通過對網(wǎng)絡(luò)提取的特征進(jìn)行分類來對測試實(shí)例進(jìn)行分類。除此之外，我們使用最近鄰分類器來評測學(xué)習(xí)到的特征。后者直接依賴于特征度量，因此能更好地反映特征表示的質(zhì)量。

??表 1 CIFAR-10 數(shù)據(jù)庫的 top-1 準(zhǔn)確率，通過對學(xué)習(xí)到的特征應(yīng)用線性 SVM 和 kNN 分類器。我們的非參數(shù) softmax 方法的分類效果遠(yuǎn)遠(yuǎn)超過了參數(shù) softmax 方法，并且隨著 m 的增加，NCE 的估計(jì)也越來越準(zhǔn)確。

圖像分類

方法對比

我們在 ImageNet ILSVRC 數(shù)據(jù)庫上學(xué)習(xí)特征表示，然后將我們的方法和其他無監(jiān)督學(xué)習(xí)代表方法進(jìn)行對比。

我們選取一個隨機(jī)初始化的網(wǎng)絡(luò)，和其他無監(jiān)督學(xué)習(xí)方法，包括自監(jiān)督學(xué)習(xí)、對抗學(xué)習(xí)、樣例 CNN。由于網(wǎng)絡(luò)結(jié)構(gòu)對算法表現(xiàn)有很大影響，我們考慮了幾個經(jīng)典的結(jié)構(gòu)：AlexNet、VGG16、ResNet-18 和 ResNet-50。

我們評測了兩個不同的方案：（1）對中層特征用線性 SVM 分類。（2）對輸出特征用 kNN 分類器分類。

??表 2 ImageNet 數(shù)據(jù)庫 top-1 分類準(zhǔn)確率。

從表中可以看出：

利用線性分類器對 AlexNet 的中層特征進(jìn)行分類時，我們的方法準(zhǔn)確率達(dá)到了 35%，超過了所有方法。并且我們的方法隨網(wǎng)絡(luò)深度增加，可以很好的擴(kuò)展。當(dāng)網(wǎng)絡(luò)從 AlexNet 變成 ResNet-50 時，我們的準(zhǔn)確率達(dá)到了 54%，而用樣例 CNN 結(jié)合 ResNet-101 時，準(zhǔn)確率也僅有 31.5%。
使用最近鄰分類器對最后的 128 維特征進(jìn)行分類時，我們的方法在 AlexNet、VGG16、ResNet-18 和 ResNet-50 上識別率分別為 31.3%,、33.9%、41.0% 和 46.5%，與線性分類結(jié)果相近，表明了我們學(xué)習(xí)到的特征引入了合理的度量。

特征泛化

我們也研究了學(xué)習(xí)到的特征表示應(yīng)該如何泛化到其他數(shù)據(jù)集。我們在 Places 數(shù)據(jù)庫上做了另一個大型實(shí)驗(yàn)。Places 時場景分類數(shù)據(jù)集，包含 2.45M 張訓(xùn)練圖片，共 205 類。表 3 對比了不同方法和不同評價(jià)策略的結(jié)果。

??表 3 Places 數(shù)據(jù)庫 top-1 分類準(zhǔn)確率，直接基于在 ImageNet 上學(xué)習(xí)到的特征，沒有進(jìn)行任何微調(diào)。

對 conv5 的特征利用線性分類器，我們的方法結(jié)合 AlexNet 得到的 top-1 準(zhǔn)確率達(dá)到了 34.5%，用 ResNet-50 準(zhǔn)確率達(dá)到了 45.5%。利用最近鄰分類器對 ResNet-50 的最后一層分類，得到的準(zhǔn)確率達(dá)到了 41.6%。結(jié)果顯示了我們的方法學(xué)習(xí)到的特征具有良好的泛化能力。

訓(xùn)練和測試目標(biāo)的連續(xù)性

無監(jiān)督特征學(xué)習(xí)一直是難點(diǎn)，因?yàn)闇y試目標(biāo)對于訓(xùn)練目標(biāo)來說時不可知的。一個好的訓(xùn)練目標(biāo)在測試中會連續(xù)提升。我們研究了訓(xùn)練損失和測試準(zhǔn)確率隨迭代次數(shù)的關(guān)系。

圖 4 我們的 kNN 測試準(zhǔn)確率在 ImageNet 數(shù)據(jù)集上隨訓(xùn)練損失下降而持續(xù)增加，表明我們的無監(jiān)督學(xué)習(xí)目標(biāo)函數(shù)捕捉到了明顯的相似性，與數(shù)據(jù)的語義標(biāo)注能夠良好匹配。

內(nèi)嵌特征維度

我們研究了內(nèi)嵌特征維度從 32 到 256，算法效果的變化。表 4 顯示，從 32 維開始，算法效果持續(xù)上升，在 128 維達(dá)到峰值，在 256 維趨于飽和。

??表 4 ResNet-18 不同內(nèi)嵌特征維度在 ImageNet 數(shù)據(jù)集上對算法分類效果的影響。

訓(xùn)練集大小

我們用 ImageNet 的不同比例的數(shù)據(jù)集訓(xùn)練了不同的特征表示，然后用 kNN 分類器在全類標(biāo)數(shù)據(jù)集上進(jìn)行驗(yàn)證，研究我們的方法隨數(shù)據(jù)集大小擴(kuò)展的效果。表 5 顯示了我們的特征學(xué)習(xí)方法在更大的數(shù)據(jù)集上效果更好，測試準(zhǔn)確率隨訓(xùn)練集增大而提高。這一特性對于有效的非監(jiān)督學(xué)習(xí)方法十分重要，因?yàn)樽匀唤缱畈蝗钡木褪菬o標(biāo)注數(shù)據(jù)。

??表 5 用 ResNet-18 網(wǎng)絡(luò)在不同大小的訓(xùn)練集上進(jìn)行訓(xùn)練后的分類準(zhǔn)確率。

定性樣例研究

??圖 5 展示了用學(xué)習(xí)得到的特征進(jìn)行圖像檢索的結(jié)果。上面 4 行顯示的是最好情況：前 10 個檢索結(jié)果都與查詢圖片屬于同一類。下面 4 行顯示的是最壞的情況：前 10 個檢索結(jié)果中沒有一個與查詢圖片屬于同類。然而，即使對于失敗案例，檢索結(jié)果依然與查詢圖片具有很高的視覺相似性，這也證明了我們無監(jiān)督學(xué)習(xí)目標(biāo)函數(shù)的能力。

半監(jiān)督學(xué)習(xí)

我們研究了學(xué)習(xí)到的特征提取網(wǎng)絡(luò)是否可以應(yīng)用于其他任務(wù)，以及它是否可以作為遷移學(xué)習(xí)的一個好的基礎(chǔ)。一般的半監(jiān)督學(xué)習(xí)方法是首先從大量無標(biāo)注數(shù)據(jù)中學(xué)習(xí)然后在少量有標(biāo)注類標(biāo)上進(jìn)行微調(diào)。我們從 ImageNet 中隨機(jī)選擇一個子集作為標(biāo)注數(shù)據(jù)，剩下的作為無標(biāo)注數(shù)據(jù)。我們進(jìn)行半監(jiān)督學(xué)習(xí)，然后在驗(yàn)證集上測量分類準(zhǔn)確率。

我們與 3 個基準(zhǔn)方法做比較：（1）Scratch，在少量標(biāo)注數(shù)據(jù)上進(jìn)行全監(jiān)督訓(xùn)練。（2）用 Split-brain 進(jìn)行預(yù)訓(xùn)練。（3）用 Colorization 進(jìn)行預(yù)訓(xùn)練。

圖 6 顯示了我們的方法性能明顯優(yōu)于其他方法，并且我們的方法是唯一一個超過監(jiān)督學(xué)習(xí)的。當(dāng)標(biāo)注數(shù)據(jù)僅占 1% 時，我們超過其他方法 10%，證明了我們從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)到的特征對于任務(wù)遷移是有效的。

?圖 6 標(biāo)注數(shù)據(jù)比例增加的半監(jiān)督學(xué)習(xí)結(jié)果。我們的方法增加更連貫并且明顯更好。

目標(biāo)檢測

為了進(jìn)一步評測學(xué)習(xí)到的特征的泛化能力，我們將學(xué)習(xí)的網(wǎng)絡(luò)遷移至 PASCAL 目標(biāo)識別任務(wù)上。從零開始訓(xùn)練目標(biāo)識別網(wǎng)絡(luò)十分困難，常用的方法是在 ImageNet 上預(yù)訓(xùn)練 CNN，然后對其進(jìn)行微調(diào)。

我們對比了 3 種設(shè)置（1）直接從頭開始訓(xùn)練（2）在 ImageNet 上進(jìn)行無監(jiān)督預(yù)訓(xùn)練（3）在 ImageNet 或其他數(shù)據(jù)上用各種無監(jiān)督方法預(yù)訓(xùn)練。

表 6 列出了目標(biāo)檢測的 mAP。對于 AlexNet 和 VGG-16，我們的方法 mAP 分別達(dá)到了 48.1% 和 60.5%，與最好的無監(jiān)督方法不相上下。用 ResNet-50，我們的方法 mAP 達(dá)到了 65.4%，超過了所有的無監(jiān)督學(xué)習(xí)方法。這也證明了網(wǎng)絡(luò)變深的時候，我們的方法可以很好的適應(yīng)。

表 6 目標(biāo)檢測準(zhǔn)確性，PASCAL VOC 2007 測試集。

總結(jié)

我們提出了一種無監(jiān)督的特征學(xué)習(xí)方法，通過一個新的非參數(shù) softmax 公式來最大化實(shí)例之間的區(qū)別。它的動機(jī)來自于監(jiān)督學(xué)習(xí)的能夠得到明顯的圖像相似性這一觀察。我們的實(shí)驗(yàn)結(jié)果表明，我們的方法在 ImageNet 和 Places 上的圖像分類效果優(yōu)于目前最先進(jìn)的方法。特征用緊湊的 128 維表示，對更多的數(shù)據(jù)和更深的網(wǎng)絡(luò)適應(yīng)良好。在半監(jiān)督學(xué)習(xí)和目標(biāo)檢測任務(wù)上，它也顯示了良好的泛化能力。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：漢無為 > 《機(jī)器學(xué)習(xí)基礎(chǔ)》

舉報(bào)/認(rèn)領(lǐng)