日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

【深度】從經典深度學習模型探討圖像識別新方向

 Yoke8 2018-02-14


學術plus】 新添加號內搜索功能!

進入公眾號→點擊菜單【智庫掃描】→【搜搜文章】

→輸入關鍵詞→一鍵檢索您需要的文章。快來試試!


【兼職】神秘崗位正在向你招手,敢來么?

【厚度】學術plus年終巨獻:2017年 你不可以錯過的重磅報告?zhèn)儯。ㄈ拈喿x鏈接)


本文轉載自:專知,來源:專知內容組(編)


【導讀】1月22日,深度學習工程師George Seif發(fā)布一篇文章,主要介紹了一些經典的用于圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網絡結構及創(chuàng)新之處,并展示了其在ImageNet的圖像分類效果。這些經典的模型其實在很多博文中早已被介紹過,作者的創(chuàng)新之處在于透過這些經典的模型,討論未來圖像識別的新方向,并提出圖像識別無監(jiān)督學習的趨勢,并引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰(zhàn)。文章梳理了用于圖像識別的深度學習方法的脈絡,并對將來的挑戰(zhàn)和方法做了分析,非常值得一讀!專知內容組編輯整理。


Deep Learning for Image Recognition: why it’s challenging, where we’ve been, and what’s next

用于圖像識別的深度學習:為什么這是一個挑戰(zhàn),我們做過哪些工作,接下來要做哪些


在過去的幾年中,深度學習絕對主導了計算機視覺,在許多任務和相關競賽中取得了最好效果。 這些計算機視覺競賽中最受歡迎、最知名的競賽是ImageNet。ImageNet競賽任務是:讓研究人員創(chuàng)建一個模型,對給定的圖像進行分類。


過去的幾年里,深度學習技術極大推進了這場比賽,甚至超越了人類的表現。


今天我們要回顧一下這方面的進展,從而了解深度學習是如何推動其發(fā)展的,了解我們可以從中學到什么,以及我們走到哪一步。


ImageNet的挑戰(zhàn)




那么ImageNet挑戰(zhàn)有什么難的呢? 讓我們先看看數據。ImageNet分類任務的數據是從Flickr和其他搜索引擎收集的,由人類手動標記,總共有1000個類別,每個圖像屬于其中一個。


數據集的分布如下表所示。

 ImageNet Dataset


到2012年,ImageNet擁有近130萬個訓練圖像。 這樣一個大規(guī)模的圖像分類任務的主要挑戰(zhàn)是圖像的多樣性。在這里我們可以看一下這個例子。


看看下面的圖片。 在左側,我們看到來自另一個圖像分類challange的一些示例圖像:PASCAL。在PASCAL挑戰(zhàn)中,只有大約20,000個訓練圖像和20個對象類別。 這個挑戰(zhàn)的類別:如“鳥”,“狗”和“貓”,如下所示。說到ImageNet的挑戰(zhàn),這是一個全新的比賽。 ImageNet并沒有一個叫做“狗”的普通類,它包含了各種各樣的狗。 事實上,ImageNet并沒有PASCAL的“狗”類別,而是有120種不同品種的狗類(更加細粒度:如哈士奇、德國牧羊犬、秋田犬等,而不是統(tǒng)一的“狗”類)!因此,我們用于此任務的任何模型/算法都必須能夠處理這些非常“細粒度”和“特定”的類,即使它們看起來非常相似并且很難區(qū)分。


更技術性地講,我們希望最大化類間差異性。這意味著我們需要兩個圖像,每個圖像包含一種不同類型的鳥類,因此即使它們都是鳥類,但在我們的數據集中,它們都屬于不同的類別。

Inter-class Variability(類間差異性


這是ImageNet的另一個具有挑戰(zhàn)性的特性:同一個類的對象可以看起來很不一樣。 讓我們看看下面的圖片。左邊的兩個都來自“orange”類,右邊的兩個都來自“pool table”類。 然而,每一對圖像看起來都不一樣!對于人類,我們可以看到其中一個桔子被切開,另一個桔子沒被切開。 我們也可以看到一張桌子的圖片放大了,另一張沒有放大。這就是所謂的類內差異性。 我們希望盡量減少這種變化,因為我們希望在我們的深度學習模型中,同一類的兩幅圖像看起來是相似的。

Intra-class Variability(類內差異性 


有了這些圖像分類的挑戰(zhàn),讓我們來回顧一下深度學習是如何在這個任務上取得重大進展的。


深度學習在圖像分類方面的快速發(fā)展




自2012年以來,幾乎每年都在為圖像分類任務開發(fā)深度學習模式方面取得重大突破。由于數據規(guī)模龐大且具有挑戰(zhàn)性,ImageNet挑戰(zhàn)一直是衡量進展的主要標桿。在這里,我們要看看深度學習這個任務的進展,以及一些主要網絡結構。


  • 開始的一切:AlexNet




早在2012年,多倫多大學就在NIPS上發(fā)表一篇論文,效果則是令人震驚的。該論文是“ImageNet Classification with Deep Convolutional Neural Networks”。

(地址:

https://papers./paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf )


 在ImageNet挑戰(zhàn)中錯誤率降低了近50%,它成為“現有領域中最有潛力的論文之一”,這在當時是前所未有的進展。


本文提出使用深度卷積神經網絡(CNN)進行圖像分類任務。與今天使用的相比,這是相對簡單的。這篇論文的主要貢獻是:


  • 第一個成功使用深度卷及網絡進行大規(guī)模圖像分類。這是因為ImageNet提供了大量標記數據,以及在兩個GPU上使用并行計算來訓練模型。


  • 他們使用ReLU作為非線性激活函數,發(fā)現它們相對于tanh函數表現更好,訓練時間更短。ReLU非線性激活函數現在幾乎成為深度網絡的默認激活函數。


  • 他們使用數據增強技術,包括圖像翻轉,水平反射(horizontal reflections)和均值減法(mean subtraction)。 這些技術如今被廣泛用于許多計算機視覺任務。


  • 他們使用dropout層來解決訓練數據過擬合的問題。


  • 他們提出的連續(xù)卷積和pooling層的方式,最后是全連接層,仍然是當今許多最先進網絡的基礎。


基本上,AlexNet提供的設置和baseline都稱為計算機視覺領域CNN的默認技術!


  • 更深:VGGNet



VGGNet的論文“Very Deep Convolutional Neural Networks for Large-Scale Image Recognition”于2014年出版,進一步使用更多卷積和ReLU加深卷積網絡。他們的主要想法是,你并不需要任何花哨的技巧來提高高精度。只要有很多小的3x3卷積和非線性激活函數的更深層的網絡就可以做到這一點! VGGNets的主要貢獻是:


  • 只使用3x3大小的過濾器,而不是AlextNet中使用的11x11。他們表明,兩個連續(xù)的3×3卷積與單個5×5卷積具有等價的接受場或“視場”(即它所看到的像素);相似地,三個連續(xù)的3×3卷積相當于一個7×7卷積。這樣做的好處是可以模擬更大的過濾器,同時保持較小過濾器尺寸的好處。較小的過濾器的第一個好處是減少了參數的數量。其次是能夠在每個卷積之間使用ReLU函數,將更多的非線性引入到網絡中,使決策函數更具有判別力。


  • 隨著每層輸入volumes(input volumes)的空間尺寸減?。ㄗ鳛閜ooling層的結果),volumes的深度增加。這背后的想法是,隨著空間信息的減少(從max pooling下采樣),它應該被編碼為更多的可區(qū)分特征,以用于更準確的分類。因此,特征圖的數量隨著深度增加而增加,以便能夠捕獲這些用于分類的特征。


  • 它引入了一種新的數據增強方式: scale jittering。


  • 使用Caffe工具箱構建模型。 此時,深度學習庫越來越受歡迎。


VGGNet:https:///pdf/1409.1556.pdf


  • 更深:GoogLeNet和Inception模塊




GoogLeNet架構是第一個真正解決計算資源問題以及“Going Deeper with Convolutions”論文中的多尺度處理。隨著我們的分類網絡越來越深,我們必須得使用大量的內存。另外,過去已經提出了不同的計算濾波器尺寸:從1x1到11x11; 你怎么決定該用哪一個?inception模塊和GoogLeNet解決了所有這些問題,具體貢獻如下:

GoogLeNet:

https://www./openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf


  • 通過在每個3x3和5x5之前使用1x1卷積,初始模塊減少了通過每層的特征映射的數量,從而減少了計算量和內存消耗!


  • 初始模塊具有全部并行的1x1,3x3和5x5卷積。這背后的想法是通過訓練讓網絡決定什么信息將被學習和使用。它還允許進行多尺度處理:模型可以通過較小的卷積和較大卷積的高抽象特征來恢復局部特征。


  • GoogLeNet是第一個提出CNN層并不總是必須按順序排列。本文的作者表示,您還可以增加網絡寬度而不僅僅是深度以獲得更好的性能。


  • 跳過一條捷徑:ResNet




自2015年在“圖像識別的深度殘差學習”一文中發(fā)布以來,ResNet已經在很多計算機視覺任務中提高了準確性。ResNet架構是ImageNet上第一個超過人類級別的性能測試的模型,而他們在residual learning方面的主要貢獻在今天許多最先進的網絡中經常被默認使用:

ResNet:https:///pdf/1512.03385.pdf


  • 文章揭露了:將層進行簡單的堆疊,從而使網絡非常深并不總是有幫助,也可能取得相反的結果。


  • 為了解決上述問題,他們引入了結合skip-connections的殘差學習(residual learning)。這個想法是,通過添加skip連接作為快捷方式,每一層層可以直接訪問前一層的函數,允許特征信息更容易地在網絡上進行傳播。 它也有助于訓練,因為梯度能更高效地反向傳播。


  • 第一個“超深”網絡,通常使用超過100-200層。


把shortcuts做到極致:DenseNet





“Densely Connected Convolutional Networks”文章中引入DenseNets,Shortcut被發(fā)揮到了極致。DenseNets擴展了Shortcut的想法,但比ResNet具有更密集的連接:

DenseNet:https:///pdf/1608.06993.pdf


  • DenseNets中每層以前饋的方式連接到其他層。 這允許每一層使用所有前面的層的所有特征圖作為輸入,并且它自己的特征圖被用作所有后續(xù)層的輸入。


  • 這里通過串聯而不是在ResNets中使用的附加來完成的,這樣原始特征直接能流過每一層。


  • 效果比ResNets更好。 DenseNets幫助緩解梯度消失問題,加強特征傳播,促進特征重用,大幅減少參數數量。


這些是在過去幾年中圖像分類領域的主要網絡架構。 目前已經取得了很大的進展,這個新技術可以解決許多現實世界的問題,這是令人興奮的。 現在只剩下一個問題了..


我們該何去何從




圖像分類的深度學習研究一直蓬勃發(fā)展! 我們已經采取了更多的步驟來改進這項任務的方法,其表現甚至超越了人類的表現。 深度神經網絡現在被廣泛用于許多企業(yè)的圖像分類,甚至是許多新的啟動技術的基礎。


所有這些進展非常令人鼓舞的,但我們必須始終努力改進。 深度學習模型在圖像分類中仍然存在很多挑戰(zhàn)。 如果我們想要向前發(fā)展,必須重視這些挑戰(zhàn)。 在這里,我將回顧一些我認為重要的研究人員正在積極嘗試解決的問題:


  • 從有監(jiān)督到無監(jiān)督學習



示例圖:有監(jiān)督學習和無監(jiān)督學習


目前,大多數用于計算機視覺任務深度學習方法都是有監(jiān)督學習。 這意味著我們需要大量標記的訓練數據。 這些數據既繁瑣又昂貴。想一想:ImageNet的挑戰(zhàn)有130萬個訓練樣例,有1000個不同的類別! 一個人需要獲取所有的數據,瀏覽每張圖片,然后貼上標簽; 這可是一個體力活。


大多數情況下,當一個企業(yè)想為自己的特定應用程序應用圖像分類網絡時,他們必須使用遷移學習來微調預先訓練好的ImageNet網絡。為了做到這一點,他們仍然需要收集大量自己的數據并打標簽; 這是很乏味和昂貴的工作。


研究人員正在努力解決這個問題。 并取得了一系列進展,如快速有效的遷移學習,半監(jiān)督學習和一次性學習等方法,越來越多的工作正在進行。我們可能不會直接跳到無監(jiān)督學習,但是這些方法的研究是朝著正確的方向邁出的重要一步。


  • Defending against our adversaries(防御對抗樣本)




使用生成對抗網絡(GANs)的日益流行已經揭示了圖像分類的新挑戰(zhàn):對抗圖像(Adversarial Images)。 對抗圖像是一個簡單的圖像,其類別對人類看起來是很容易區(qū)分的,但在深度網絡中導致很大的失敗。 看看上面的圖片。 雖然只有輕微的扭曲(看起來),但是深度網絡卻把圖像從熊貓分類到長臂猿!


對我們人類來說,類別很明顯,形象仍然是一只熊貓,但由于某種原因,它會導致深層網絡的任務失敗。 這在現實世界的應用中可能是非常危險的:如果你的自動駕駛汽車不能識別行人,而是將其運行過來呢? 部分問題可能源于我們對深度網絡內部沒有充分理解。無論如何,研究人員正在積極研究這個具有挑戰(zhàn)性的問題。


  • 加速處理過程




深度學習的進步很多是基于硬件進步,特別是GPU的改進所推動的。 GPU允許并行高速計算。深度學習需要大量的矩陣運算; GPU擅長執(zhí)行這些操作。 這進步太棒了,但并不是任何地方都有GPU!


許多最先進的網絡,包括上面已經討論過的網絡,只能在高端GPU上才能勉強運行。移動設備是一個巨大的市場,怎么服務于這個市場是很重要的。此外,隨著網絡越來越深,往往需要更多的內存,這使更多的設備無法訓練網絡!


這方面的研究最近實際上已經有了很大的提高。MobileNets是一種在移動設備上直接運行深層網絡的結構。 他們使用不同的卷積風格來減少內存消耗和訓練時間。


總結




我們看到了圖像分類的難點,并回顧了在深度學習領域取得的驚人進展,我們也看到了當前的一些挑戰(zhàn),以及如何用新的科學的方法來應對這些挑戰(zhàn)。


參考鏈接:

https:///deep-learning-for-image-classification-why-its-challenging-where-we-ve-been-and-what-s-next-93b56948fcef

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多