日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

解讀 | 2019 年 10 篇計算機視覺精選論文(下)

 西北望msm66g9f 2020-02-16
By 超神經
內容一覽:2019 年已經接近尾聲,在這一年里,計算機視覺(CV)領域又誕生了大量出色的論文,提出了許多新穎的架構和方法,進一步提高了視覺系統(tǒng)的感知和生成能力。我們精選了 2019 年十大 CV 研究論文,幫你了解該領域的最新趨勢,繼之前推出的上系列和中系列之后,這是該系列的最后一個部分。Enjoy~
關鍵詞:計算機視覺 精選論文 解讀
近年來,計算機視覺(CV)系統(tǒng)已經逐漸成功地應用在醫(yī)療保健,安防,運輸,零售,銀行,農業(yè)等領域,也正在逐漸改變整個行業(yè)的面貌。

今年,CV 領域依然碩果累累,在各個頂尖會議中誕生了多篇優(yōu)秀論文。我們從中精選了 10 篇論文以供大家參考、學習。限于篇幅,我們將解讀分為了上、中、下三個篇章分期進行推送。

以下是這 10 篇論文完整的目錄:
1. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet:卷積神經網絡模型縮放的反思
2. Learning the Depths of Moving People by Watching Frozen People
通過觀看靜止的人來學習移動的人的深度
3. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
增強的跨模態(tài)匹配和自我監(jiān)督的模仿學習,用于視覺語言導航
4. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
非視線形狀重構的費馬路徑理論
5. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
Reasoning-RCNN:將自適應全局推理統(tǒng)一到大規(guī)模目標檢測中
6. Fixing the Train-Test Resolution Discrepancy
修復訓練測試分辨率差異
7. SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN:從單個自然圖像中學習生成模型
8. Local Aggregation for Unsupervised Learning of Visual Embeddings
視覺聚合的無監(jiān)督學習的局部聚合
9. Robust Change Captioning
強大的更改字幕
10. HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
HYPE:人類對生成模型的 eYe 感知評估的基準

本文是序號 8-10 的詳細解讀,前面的內容請查看往期內容:

解讀 | 2019 年 10 篇計算機視覺精選論文(上)
解讀 | 2019 年 10 篇計算機視覺精選論文(中)

8



   論文摘要   

神經網絡中的無監(jiān)督學習方法對于促進 AI 的發(fā)展具有重大的意義,一方面是因為這種方法,不需要進行大量的標記,就可進行網絡訓練,另一方面,它們將是人為部署中,更好的通用模型。

但是,無監(jiān)督的網絡的性能長期落后于有監(jiān)督網絡,尤其是在大規(guī)模視覺識別領域。但最近有一種新的方法,可以彌補這一差距,它是通過訓練深度卷積嵌入,以最大化非參數(shù)去進行實例分割和聚類。

這篇論文中,描述了一種訓練嵌入函數(shù)以最大化局部聚合度量的方法,該方法可讓相似的數(shù)據實例在嵌入空間中相互靠近,同時允許不同實例分開。該聚合指標是動態(tài)的,允許不同規(guī)模的軟聚類產生。

該模型在幾個大型視覺識別數(shù)據集上進行了評估,在 ImageNet 中的對象識別,Places 205 中的場景識別,以及 PASCAL VOC 中的對象檢測方面,均實現(xiàn)了最先進的無監(jiān)督轉移學習性能。
   核心思想   

本文介紹了一種新穎的無監(jiān)督學習算法,該算法可在潛在特征空間中對相似圖像進行局部非參數(shù)聚合。

所提出的本地聚合( Local Aggregation,LA)過程的總體目標,是學習一種嵌入功能,該功能將圖像映射到表示空間中的特征,在該表達空間中,相似的圖像分組在一起,而不同的圖像則會分開:

  • 對于每個輸入圖像,使用深度神經網絡將圖像嵌入到低維空間中。

  • 然后,該模型識別嵌入相似的近鄰和背景近鄰,這些特征用于設置判斷鄰近度的距離尺度。

  • 通過優(yōu)化,當前嵌入向量被推到更靠近其近鄰,并進一步遠離其背景近鄰。

引入的過程產生的表示形式支持下游計算機視覺任務。
   關鍵成就   

在以下方面,本地聚合明顯優(yōu)于其他架構:

目標識別:經過 LA 培訓的 ResNet-50 在 ImageNet 上,達到了 60.2% 的 top-1準確性,高于直接在監(jiān)督任務上進行訓練的 AlexNet ;

場景分類: LA 訓練的 ResNet-50 在 Places 數(shù)據集,達到了 50.1% 的精度,展現(xiàn)了其強大的遷移學習性能。

目標檢測:在 PASCAL 檢測任務的無監(jiān)督轉移學習中,取得了最先進的性能(在ResNet-50 上的平均精度為 69.1%)。


   所獲榮譽   

該論文在計算機視覺領域頂級會議 ICCV 2019 中,收獲了最佳論文獎
   后續(xù)研究   

探索使用基于非局部流形學習的先驗檢測相似性的可能性。

通過分析學習的多個步驟中的代表變化來改善差異檢測。

將 LA 目標應用于其他領域,比如視頻和音頻。

將 LA 程序與生物視覺系統(tǒng)進行對比。

   應用場景   

這項研究對于計算機視覺研究而言,是將無監(jiān)督學習用于現(xiàn)實世界中的重要一步,且使物體檢測和對象識別系統(tǒng),能夠在不花費昂貴的注釋費用的情況下正常運行。
   代碼獲得   

在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 實現(xiàn)。
地址:https://github.com/neuroailab/LocalAggregation

9


   論文摘要   
描述場景中發(fā)生的變化是一項重要的工作,但前提是生成的文本只關注語義相關的內容。因此,需要將干擾因素(例如視點變化)與相關變化(例如物體移動)區(qū)進行區(qū)分。

此文提出一種新穎的雙重動態(tài)注意力模型(DUDA),以執(zhí)行強大的變化文本描述。該模型學會了將干擾因素與語義變化區(qū)分開,通過對前后圖像進行雙重關注來定位變化,并通過自適應地關注必要的視覺輸入(例如「之前」),通過動態(tài)揚聲器準確地用自然語言描述它們。(或之后的圖片)。

為了進一步探究此問題,我們收集了基于 CLEVR 引擎的 CLEVR-Change 數(shù)據集,其中包含 5 種類型的場景變更。我們以數(shù)據集為基準,并系統(tǒng)地研究了不同的變化類型和干擾因素的魯棒性。在描述變化和本地化方面都展示了 DUDA 模型的優(yōu)越性。

結果表明此方法是通用的,它在沒有干擾因素的 Spot-the-Diff 數(shù)據集上,獲得了最先進的性能。


   核心思想   

研究團隊提出了用于變化檢測和字幕說明的雙重動態(tài)注意力模型(DUDA):

  • 該模型包括用于更改本地化的 Dual Attention 組件,和用于生成更改描述的 Dynamic Speaker 組件。

  • 這兩個神經網絡都是使用字幕級監(jiān)督進行聯(lián)合訓練的,并且沒有有關更改位置的信息。

  • 給出「之前」和「之后」圖像后,模型將檢測場景是否已更改;如果已改變,它將在兩個圖像上定位變化,然后生成一個描述變化的句子,該句子是基于圖像對在空間和時間上的信息。


本文還介紹了一個新的 CLEVR-Change 數(shù)據集,該數(shù)據集:

  • 包含 8 萬個「之前 /之后」圖像對;

  • 涵蓋 5 種場景變化類型,例如顏色或材質變化,添加,放置或移動對象;

  • 包括僅具有干擾因素的圖像對(即照明/視點變化)和具有干擾因素和語義相關場景變化的圖像。

   關鍵成就   

引入新的 CLEVR-Change 基準測試,可以幫助研究團體訓練新模型,以用于:

  • 當視點移動時,局部場景發(fā)生的變化;

  • 正確引用復雜場景中的物體;

  • 定義視點移動時物體之間的對應關系。


提出一個更改文字描述的 DUDA 模型,當在 CLEVR-Change 數(shù)據集上進行評估時,該模型在以下方面優(yōu)于所有場景更改類型的基準:

  • 總體句子流利度和與真實性的相似度(BLEU-4,METEOR,CIDEr 和 SPICE 度量);

  • 更改本地化(指向游戲評估)。


   所獲榮譽   

該論文被計算機視覺領域頂級會議 ICCV 2019 ,提名為最佳論文獎。
   后續(xù)研究   

收集來自真實圖像的「之前 /之后」圖像對數(shù)據集,并包含語義上的顯著變化和干擾因素變化。
   應用場景   

DUDA 模型可以協(xié)助各種實際應用,包括:更改醫(yī)學圖像中的跟蹤;設施監(jiān)控;航空攝影。

10


   論文摘要   
生成模型通常使用人工評估來評價其輸出的感知質量。自動化指標是嘈雜的間接代理,因為它們依賴于啟發(fā)式方法或預訓練的嵌入。然而直到現(xiàn)在,直接的人類評估策略都是臨時的,既沒有標準化也沒有經過驗證。

論文里進行的工作,是為生成現(xiàn)實的判斷建立了一套黃金標準的人類方法。我們構建了人類 eYe 感知評估(HYPE)基準。

該基準是(1)基于感知的心理物理學研究;(2)在模型的隨機采樣輸出的不同集合之間是可靠的;(3)能夠產生可分離的模型性能;以及(4)在成本和時間上具有很高的效益。

我們介紹了兩種變量:一種在自適應時間約束下測量視覺感知,以確定模型輸出呈現(xiàn)真實閾值(例如 250ms),另一個代價更小的變量,它在沒有時間限制的情況下,可以在假的和真實圖像上,測量人為錯誤率。

我們使用 CelebA,F(xiàn)FHQ,CIFAR-10 和 ImageNet 這四個數(shù)據集,通過六個最先進的生成對抗網絡和兩種采樣技術,對有條件和無條件圖像生成進行 HYPE 測試。我們發(fā)現(xiàn) HYPE 可以跟蹤訓練期間的模型改進,并且通過引導抽樣驗證了 HYPE 排名是一致且可重復的。
   核心思想   

由于自動度量標準在高維問題上不準確,并且人工評估不可靠且過度依賴任務設計,因此需要用于評估生成模型的系統(tǒng)性黃金標準基準。

為了解決這個問題,研究人員介紹了基準 Human eYPerceptual Evaluation(HYPE),以及評估的方法有兩種:

  • 計算一個人需要多少時間來區(qū)分特定模型生成的真實圖像和偽圖像:花費的時間越長,模型越好。

  • 測量不受時間限制的人為錯誤率:得分高于 50% 表示生成的偽圖像看起來比真實圖像更真實。

   關鍵成就   
引入用于評估生成模型的黃金基準:
  • 依據于心理物理學研究;

  • 可靠而且一致性好;

  • 能夠針對不同模型產生統(tǒng)計上可分離的結果;

  • 在成本和時間上具有高效率。

   所獲榮譽   

該論文被選做人工智能頂級會議 NeurIPS 2019 的口頭報告。
   后續(xù)研究   

將 HYPE 擴展到其他生成任務,包括文本,音樂和視頻生成。
   代碼獲得   
作者已經在線部署了 HYPE,任何研究人員都可以使用 Mechanical Turk 上載模型并檢索 HYPE 分數(shù)。地址:https://hype.stanford.edu/
參考資料:https://www./top-ai-vision-research-papers-2019/
—— 完 ——

掃描二維碼,加入討論群

獲得更多優(yōu)質數(shù)據集

了解人工智能落地應用

關注頂會&論文

回復「讀者」了解更多

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多