DilatedNet - 擴(kuò)張卷積

LibraryPKU 2019-04-03

展開全文

這次，對來自普林斯頓大學(xué)和英特爾實驗室的Dilated Convolution一文進(jìn)行了簡要回顧。擴(kuò)張卷積的思想來自小波分解。它也被稱為“atrous convolution”，“algorithmeàtrous”和“hole algorithm”。因此，如果我們能夠?qū)⑺鼈冝D(zhuǎn)變?yōu)樯疃葘W(xué)習(xí)框架，那么可以認(rèn)為過去的任何想法仍然是有用的。

當(dāng)我寫這篇故事時，這個擴(kuò)張卷積已經(jīng)在2016年ICLR上發(fā)表，引用超過1000次。（SH Tsang @ Medium）

涉及的內(nèi)容

擴(kuò)張卷積
多尺度上下文聚合（上下文模塊）
結(jié)果

1.擴(kuò)張卷積

標(biāo)準(zhǔn)卷積（左），擴(kuò)張卷積（右）

左邊是標(biāo)準(zhǔn)卷積。正確的是擴(kuò)張卷積。我們可以看到，在求和時，s+lt=p 我們將在卷積期間跳過一些點。

當(dāng) l = 1時，它是標(biāo)準(zhǔn)卷積。

當(dāng) l > 1時，它是擴(kuò)張的卷積。

標(biāo)準(zhǔn)卷積（l = 1）

擴(kuò)張卷積（l = 2）

上面給出了當(dāng)l = 2 時擴(kuò)張卷積的一個例子。我們可以看到，與標(biāo)準(zhǔn)卷積相比，感受野更大。

l = 1（左），l = 2（中），l = 4（右）

上圖顯示了有關(guān)感受野的三個示例。

2.多尺度的上下文聚合（上下文模塊）

基于擴(kuò)張卷積來構(gòu)建的上下文模塊Context Module，如下所示：

基礎(chǔ)的上下文模塊，和大的上下文模塊

如圖，context module有7層，這些層采用不同擴(kuò)張率的3×3 kernel size 的擴(kuò)張卷積，擴(kuò)張的率分別為1,1,2,4,8,16,1。

最后一層用了一個1×1的卷積，將通道數(shù)映射為與輸入通道數(shù)相同大小。因此，輸入和輸出具有相同數(shù)量的通道。它可以插入到不同類型的卷積神經(jīng)網(wǎng)絡(luò)中。

基本上下文模塊basic context module在整個模塊中僅有1個通道（1C,1 channel），而大上下文模塊large context module從1C 作為輸入到第7層的32C的通道數(shù)。

3.結(jié)果

3.1. PASCAL VOC 2012

VGG-16 作為一個前端模塊（預(yù)訓(xùn)練）。刪除了最后的兩個池化層和striding 層，并將context上下文模塊插入其中。中間的特征圖的padding也被移除了。作者只是對輸入的特征圖加了一個寬度為33的padding。Zero Padding (填充0)和 reflection padding（使用輸入邊界的反射填充，一種padding方式）在我們的實驗中得出了類似的結(jié)果。此外，使用輸入和輸出的通道channels的數(shù)量的權(quán)重來初始化的方式代替標(biāo)準(zhǔn)隨機(jī)初始化模型參數(shù)。