內容一覽:2019 年已經接近尾聲,在這一年里,計算機視覺(CV)領域又誕生了大量出色的論文,提出了許多新穎的架構和方法,進一步提高了視覺系統(tǒng)的感知和生成能力。我們精選了 2019 年十大 CV 研究論文,幫你了解該領域的最新趨勢,繼之前推出的上系列和中系列之后,這是該系列的最后一個部分。Enjoy~近年來,計算機視覺(CV)系統(tǒng)已經逐漸成功地應用在醫(yī)療保健,安防,運輸,零售,銀行,農業(yè)等領域,也正在逐漸改變整個行業(yè)的面貌。今年,CV 領域依然碩果累累,在各個頂尖會議中誕生了多篇優(yōu)秀論文。我們從中精選了 10 篇論文以供大家參考、學習。限于篇幅,我們將解讀分為了上、中、下三個篇章分期進行推送。 1. EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet:卷積神經網絡模型縮放的反思2. Learning the Depths of Moving People by Watching Frozen People3. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation增強的跨模態(tài)匹配和自我監(jiān)督的模仿學習,用于視覺語言導航4. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction5. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object DetectionReasoning-RCNN:將自適應全局推理統(tǒng)一到大規(guī)模目標檢測中6. Fixing the Train-Test Resolution Discrepancy7. SinGAN: Learning a Generative Model from a Single Natural Image8. Local Aggregation for Unsupervised Learning of Visual Embeddings9. Robust Change Captioning10. HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative ModelsHYPE:人類對生成模型的 eYe 感知評估的基準本文是序號 8-10 的詳細解讀,前面的內容請查看往期內容: 神經網絡中的無監(jiān)督學習方法對于促進 AI 的發(fā)展具有重大的意義,一方面是因為這種方法,不需要進行大量的標記,就可進行網絡訓練,另一方面,它們將是人為部署中,更好的通用模型。但是,無監(jiān)督的網絡的性能長期落后于有監(jiān)督網絡,尤其是在大規(guī)模視覺識別領域。但最近有一種新的方法,可以彌補這一差距,它是通過訓練深度卷積嵌入,以最大化非參數(shù)去進行實例分割和聚類。這篇論文中,描述了一種訓練嵌入函數(shù)以最大化局部聚合度量的方法,該方法可讓相似的數(shù)據實例在嵌入空間中相互靠近,同時允許不同實例分開。該聚合指標是動態(tài)的,允許不同規(guī)模的軟聚類產生。該模型在幾個大型視覺識別數(shù)據集上進行了評估,在 ImageNet 中的對象識別,Places 205 中的場景識別,以及 PASCAL VOC 中的對象檢測方面,均實現(xiàn)了最先進的無監(jiān)督轉移學習性能。本文介紹了一種新穎的無監(jiān)督學習算法,該算法可在潛在特征空間中對相似圖像進行局部非參數(shù)聚合。所提出的本地聚合( Local Aggregation,LA)過程的總體目標,是學習一種嵌入功能,該功能將圖像映射到表示空間中的特征,在該表達空間中,相似的圖像分組在一起,而不同的圖像則會分開:對于每個輸入圖像,使用深度神經網絡將圖像嵌入到低維空間中。 然后,該模型識別嵌入相似的近鄰和背景近鄰,這些特征用于設置判斷鄰近度的距離尺度。 通過優(yōu)化,當前嵌入向量被推到更靠近其近鄰,并進一步遠離其背景近鄰。 目標識別:經過 LA 培訓的 ResNet-50 在 ImageNet 上,達到了 60.2% 的 top-1準確性,高于直接在監(jiān)督任務上進行訓練的 AlexNet ;場景分類: LA 訓練的 ResNet-50 在 Places 數(shù)據集,達到了 50.1% 的精度,展現(xiàn)了其強大的遷移學習性能。目標檢測:在 PASCAL 檢測任務的無監(jiān)督轉移學習中,取得了最先進的性能(在ResNet-50 上的平均精度為 69.1%)。該論文在計算機視覺領域頂級會議 ICCV 2019 中,收獲了最佳論文獎。探索使用基于非局部流形學習的先驗檢測相似性的可能性。 通過分析學習的多個步驟中的代表變化來改善差異檢測。 將 LA 目標應用于其他領域,比如視頻和音頻。 將 LA 程序與生物視覺系統(tǒng)進行對比。 這項研究對于計算機視覺研究而言,是將無監(jiān)督學習用于現(xiàn)實世界中的重要一步,且使物體檢測和對象識別系統(tǒng),能夠在不花費昂貴的注釋費用的情況下正常運行。在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 實現(xiàn)。地址:https://github.com/neuroailab/LocalAggregation描述場景中發(fā)生的變化是一項重要的工作,但前提是生成的文本只關注語義相關的內容。因此,需要將干擾因素(例如視點變化)與相關變化(例如物體移動)區(qū)進行區(qū)分。此文提出一種新穎的雙重動態(tài)注意力模型(DUDA),以執(zhí)行強大的變化文本描述。該模型學會了將干擾因素與語義變化區(qū)分開,通過對前后圖像進行雙重關注來定位變化,并通過自適應地關注必要的視覺輸入(例如「之前」),通過動態(tài)揚聲器準確地用自然語言描述它們。(或之后的圖片)。為了進一步探究此問題,我們收集了基于 CLEVR 引擎的 CLEVR-Change 數(shù)據集,其中包含 5 種類型的場景變更。我們以數(shù)據集為基準,并系統(tǒng)地研究了不同的變化類型和干擾因素的魯棒性。在描述變化和本地化方面都展示了 DUDA 模型的優(yōu)越性。結果表明此方法是通用的,它在沒有干擾因素的 Spot-the-Diff 數(shù)據集上,獲得了最先進的性能。研究團隊提出了用于變化檢測和字幕說明的雙重動態(tài)注意力模型(DUDA):該模型包括用于更改本地化的 Dual Attention 組件,和用于生成更改描述的 Dynamic Speaker 組件。 這兩個神經網絡都是使用字幕級監(jiān)督進行聯(lián)合訓練的,并且沒有有關更改位置的信息。 給出「之前」和「之后」圖像后,模型將檢測場景是否已更改;如果已改變,它將在兩個圖像上定位變化,然后生成一個描述變化的句子,該句子是基于圖像對在空間和時間上的信息。 本文還介紹了一個新的 CLEVR-Change 數(shù)據集,該數(shù)據集:引入新的 CLEVR-Change 基準測試,可以幫助研究團體訓練新模型,以用于:當視點移動時,局部場景發(fā)生的變化; 正確引用復雜場景中的物體; 定義視點移動時物體之間的對應關系。 提出一個更改文字描述的 DUDA 模型,當在 CLEVR-Change 數(shù)據集上進行評估時,該模型在以下方面優(yōu)于所有場景更改類型的基準:該論文被計算機視覺領域頂級會議 ICCV 2019 ,提名為最佳論文獎。收集來自真實圖像的「之前 /之后」圖像對數(shù)據集,并包含語義上的顯著變化和干擾因素變化。DUDA 模型可以協(xié)助各種實際應用,包括:更改醫(yī)學圖像中的跟蹤;設施監(jiān)控;航空攝影。生成模型通常使用人工評估來評價其輸出的感知質量。自動化指標是嘈雜的間接代理,因為它們依賴于啟發(fā)式方法或預訓練的嵌入。然而直到現(xiàn)在,直接的人類評估策略都是臨時的,既沒有標準化也沒有經過驗證。論文里進行的工作,是為生成現(xiàn)實的判斷建立了一套黃金標準的人類方法。我們構建了人類 eYe 感知評估(HYPE)基準。該基準是(1)基于感知的心理物理學研究;(2)在模型的隨機采樣輸出的不同集合之間是可靠的;(3)能夠產生可分離的模型性能;以及(4)在成本和時間上具有很高的效益。我們介紹了兩種變量:一種在自適應時間約束下測量視覺感知,以確定模型輸出呈現(xiàn)真實閾值(例如 250ms),另一個代價更小的變量,它在沒有時間限制的情況下,可以在假的和真實圖像上,測量人為錯誤率。我們使用 CelebA,F(xiàn)FHQ,CIFAR-10 和 ImageNet 這四個數(shù)據集,通過六個最先進的生成對抗網絡和兩種采樣技術,對有條件和無條件圖像生成進行 HYPE 測試。我們發(fā)現(xiàn) HYPE 可以跟蹤訓練期間的模型改進,并且通過引導抽樣驗證了 HYPE 排名是一致且可重復的。由于自動度量標準在高維問題上不準確,并且人工評估不可靠且過度依賴任務設計,因此需要用于評估生成模型的系統(tǒng)性黃金標準基準。為了解決這個問題,研究人員介紹了基準 Human eYe Perceptual Evaluation(HYPE),以及評估的方法有兩種:該論文被選做人工智能頂級會議 NeurIPS 2019 的口頭報告。將 HYPE 擴展到其他生成任務,包括文本,音樂和視頻生成。作者已經在線部署了 HYPE,任何研究人員都可以使用 Mechanical Turk 上載模型并檢索 HYPE 分數(shù)。地址:https://hype.stanford.edu/參考資料:https://www./top-ai-vision-research-papers-2019/獲得更多優(yōu)質數(shù)據集 了解人工智能落地應用 關注頂會&論文 回復「讀者」了解更多
|