Transformer 的跨界之旅,從 2020 延續(xù)到了 2021。 2020 年 5 月,F(xiàn)acebook AI 推出了 Detection Transformer,用于目標(biāo)檢測(cè)和全景分割。這是第一個(gè)將 Transformer 成功整合為檢測(cè) pipeline 中心構(gòu)建塊的目標(biāo)檢測(cè)框架, 在大型目標(biāo)上的檢測(cè)性能要優(yōu)于 Faster R-CNN。 2020 年 10 月,谷歌提出了 Vision Transformer(ViT),能直接利用 Transformer 對(duì)圖像進(jìn)行分類,而不需要卷積網(wǎng)絡(luò)。該模型可以獲得與當(dāng)前最優(yōu)卷積網(wǎng)絡(luò)相媲美的結(jié)果,但其訓(xùn)練所需的計(jì)算資源大大減少。谷歌在論文中寫道:「這項(xiàng)研究表明,對(duì) CNN 的依賴不是必需的。當(dāng)直接應(yīng)用于圖像塊序列時(shí),transformer 也能很好地執(zhí)行圖像分類任務(wù)?!?/strong> 2020 年 12 月,復(fù)旦大學(xué)、牛津大學(xué)、騰訊等機(jī)構(gòu)的研究者提出了 SEgmentation TRansformer(SETR),將語(yǔ)義分割視為序列到序列的預(yù)測(cè)任務(wù),該模型在 ADE20K 上排名第一,性能優(yōu)于 OCNet、GCNet 等網(wǎng)絡(luò)。 元旦剛過,OpenAI 又連放大招 ,用 DALL·E 和 CLIP 打破了自然語(yǔ)言與視覺的次元壁。兩個(gè)模型都利用 Transformer 達(dá)到了很好的效果,前者可以基于本文直接生成圖像,后者則能完成圖像與文本類別的匹配。 這些研究覆蓋了圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割等 CV 主流方向。因此有人提問:「未來,Transformer 有可能替代 CNN 嗎?」 這一問題在知乎、Reddit 等平臺(tái)上都有人討論。從討論的結(jié)果來看,大部分人認(rèn)為 Transformer 和 CNN 各有優(yōu)劣,二者可能并非取代和被取代的關(guān)系,而是互相融合,取長(zhǎng)補(bǔ)短。從研究現(xiàn)狀來看,Transformer 在 CV 領(lǐng)域的應(yīng)用還需要解決計(jì)算效率低等問題。 Transformer 取代 CNN?下結(jié)論還為時(shí)過早在知乎討論區(qū),用戶 @小小將指出,「目前我們看到很大一部分工作還是把 transformer 和現(xiàn)有的 CNN 工作結(jié)合在一起」。以 DETR 為例,該模型使用 CNN 從圖像中提取局部信息,同時(shí)利用 Transformer 編碼器 - 解碼器架構(gòu)對(duì)圖像進(jìn)行整體推理并生成預(yù)測(cè)。 聲稱「對(duì) CNN 的依賴并非必需」的 ViT 模型可能也不例外。@小小將表示,「ViT 其實(shí)也是有 Hybrid Architecture(將 ResNet 提出的特征圖送入 ViT)」。@mileistone 也認(rèn)為,「(ViT)文章里提出的方法中會(huì)將圖片分成多個(gè)無 overlap 的 patch,每個(gè) patch 通過 linear projection 映射為 patch embedding,這個(gè)過程其實(shí)就是卷積,跟文章里聲稱的不依賴 CNN 自相矛盾?!?/p> 由于 CNN 和 Transformer 各有優(yōu)勢(shì)和不足,這種融合的做法出現(xiàn)在很多 Transformer 的跨界論文中。 在解釋 CNN 和 Transformer 各自的優(yōu)缺點(diǎn)時(shí),用戶 @齊國(guó)君提到,「CNN 網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面有比較大的優(yōu)勢(shì)。這些底層特征構(gòu)成了在 patch level 上的關(guān)鍵點(diǎn)、線和一些基本的圖像結(jié)構(gòu)。這些底層特征具有明顯的幾何特性,往往關(guān)注諸如平移、旋轉(zhuǎn)等變換下的一致性或者說是共變性。CNN 網(wǎng)絡(luò)在處理這類共變性時(shí)是很自然的選擇。但當(dāng)我們檢測(cè)得到這些基本視覺要素后,高層的視覺語(yǔ)義信息往往更關(guān)注這些要素之間如何關(guān)聯(lián)在一起進(jìn)而構(gòu)成一個(gè)物體,以及物體與物體之間的空間位置關(guān)系如何構(gòu)成一個(gè)場(chǎng)景,這些是我們更加關(guān)心的。目前來看,transformer 在處理這些要素之間的關(guān)系上更自然也更有效?!?/p> 從現(xiàn)有的研究來看,二者的結(jié)合也確實(shí)實(shí)現(xiàn)了更好的結(jié)果,比如近期的《Rethinking Transformer-based Set Prediction for Object Detection》「還是把現(xiàn)有的 CNN 檢測(cè)模型和 transformer 思想結(jié)合在一起實(shí)現(xiàn)了比 DETR 更好的效果(訓(xùn)練收斂速度也更快)」(引自 @小小將)。反過來說,如果全部將 CV 任務(wù)中的 CNN 換成 Transformer,我們會(huì)遇到很多問題,比如計(jì)算量、內(nèi)存占用量大到無法接受。 未來研究思路Transformer 的跨界之旅還在繼續(xù),那么未來有哪些可能的研究思路呢? 去年 12 月,來自華為諾亞方舟實(shí)驗(yàn)室、北京大學(xué)、悉尼大學(xué)的研究者整理了一份綜述,詳細(xì)歸納了多個(gè)視覺方向的 Transformer 模型。 論文鏈接:https:///pdf/2012.12556.pdf 此外,他們還在論文中初步思考并給出了三個(gè)未來的研究方向:
類似的綜述研究還有來自穆罕默德 · 本 · 扎耶德人工智能大學(xué)等機(jī)構(gòu)的《Transformers in Vision: A Survey》。 論文鏈接:https:///pdf/2101.01169.pdf 有志于 Transformer 跨界研究的同學(xué)可以在讀完綜述后尋找自己感興趣的研究方向。 一起交流 |
|