什么是深度學習？

黃昌易 2019-03-18

展開全文

2012年9月，來自多倫多大學的兩位AI研究人員Alex Krizhevsky和Ilya Sutskever在ImageNet圖像識別比賽上創(chuàng)造了歷史。Krizhevsky和Sutskever，以及他們的導師(人工智能先驅(qū)Geoffrey Hinton)，他們提交了一種基于深度學習和神經(jīng)網(wǎng)絡的算法，這是一種人工智能技術(shù)，由于過去看來的有很多缺點，人工智能社區(qū)對此持懷疑態(tài)度。

由U of T研究人員開發(fā)的深度學習算法AlexNet能夠以15.3％的錯誤率贏得比賽，比第二名高出10.8％。從某些方面來說，這一事件引發(fā)了深度學習革命，使許多學術(shù)和商業(yè)組織對該領(lǐng)域產(chǎn)生了興趣。

如今，深度學習已經(jīng)成為我們每天使用的許多應用程序的關(guān)鍵，例如內(nèi)容推薦系統(tǒng)，翻譯應用程序，數(shù)字助理，聊天機器人和面部識別系統(tǒng)。深度學習也有助于在醫(yī)療保健，教育和自動駕駛汽車等許多特殊領(lǐng)域取得進步。

深度學習的名聲也導致了對它是什么以及它能做什么的混淆和模糊。以下是深度學習和神經(jīng)網(wǎng)絡的簡要分析它們的優(yōu)勢和局限。

機器學習與經(jīng)典軟件的區(qū)別

深度學習是機器學習的一個子集，AI的其中一個領(lǐng)域，它是改變了開發(fā)軟件的方式。開發(fā)軟件的經(jīng)典方式是程序員手動編碼規(guī)定應用程序的行為，這些經(jīng)典軟件現(xiàn)在也被成為“老式AI”。

經(jīng)典軟件在規(guī)則明確的領(lǐng)域中運行良好，并且可以轉(zhuǎn)換為程序流命令，例如if ... else命令。但是，基于規(guī)則的系統(tǒng)在諸如計算機視覺等領(lǐng)域中則不太適用，因為計算機視覺領(lǐng)域的軟件必須理解從不同角度和不同光照條件下拍攝的照片和視頻的內(nèi)容。

機器學習算法使用不同的數(shù)學和統(tǒng)計模型來分析大量數(shù)據(jù)，并找到有用的模式和相關(guān)性。然后，機器學習使用獲得的知識進行預測或定義應用程序的行為。

機器學習已經(jīng)使用了幾十年，但其功能在某些領(lǐng)域受到限制，仍然涉及大量勞動密集型手工設計。例如，當在計算機視覺中使用時，開發(fā)人員必須進行大量“特征工程”，來使得算法能夠從圖像中提取不同的特征，然后再應用統(tǒng)計模型(例如邏輯回歸或支持向量機SVM)。這個過程非常耗時，需要多名AI工程師和領(lǐng)域?qū)＜覅⑴c。

什么是深度學習？

經(jīng)典的機器學習方法涉及許多復雜的步驟，需要數(shù)十名領(lǐng)域?qū)＜?，?shù)學家和程序員的合作

神經(jīng)網(wǎng)絡和深度學習算法的原理

深度學習與其他機器學習和人工智能技術(shù)的不同之處在于它涉及的手工設計非常少。深度學習使用神經(jīng)網(wǎng)絡，可以解決大多數(shù)機器學習問題，而無需通過您之前的特定領(lǐng)域的特征工程。

當您為神經(jīng)網(wǎng)絡提供一組示例（例如人物圖像）時，它可以找到這些圖像之間的共同特征。當您將多個神經(jīng)網(wǎng)絡堆疊在一起時，它可以從找到簡單的特征（如邊緣和輪廓）到更復雜的特征（如眼睛，鼻子，耳朵，面部和身體）。

什么是深度學習？

分層神經(jīng)網(wǎng)絡可以以分層方式從圖像中提取不同的特征（來源：www.deeplearningbook.o

在創(chuàng)建深度學習算法時，開發(fā)人員和工程師會配置層數(shù)和將每層輸出連接到下一層輸入的函數(shù)類型。接下來，他們通過提供大量帶注釋的示例來訓練模型。例如，您給深度學習算法數(shù)千個圖像，其中包含與每個圖像的內(nèi)容相對應的標簽(即內(nèi)容標注)。

深度學習算法將通過其分層神經(jīng)網(wǎng)絡運行這些示例數(shù)據(jù)，并調(diào)整神經(jīng)網(wǎng)絡的每個層中的變量（或神經(jīng)元或激活）的權(quán)重以便能夠檢測到定義具有相似標簽的圖像的常見模式。有許多層也是其被稱為“深度”學習的原因。通過足夠的訓練，神經(jīng)網(wǎng)絡可以自己進行微調(diào)，并且能夠根據(jù)從示例中獲得的知識對未標記的圖像進行分類判斷。

尋找高質(zhì)量的訓練數(shù)據(jù)是深度學習算法的主要挑戰(zhàn)之一。幸運的是，深度學習工程師可以選擇許多公開可用的數(shù)據(jù)集。其中一個例子是ImageNet數(shù)據(jù)庫，它包含20萬個標注類別，超過1400萬張圖片。ImageNet是培訓和測試計算機視覺算法的事實標準之一。其他數(shù)據(jù)集包括CIFAR（另一種通用計算機視覺數(shù)據(jù)集）和MNIST（一種由數(shù)萬個手寫數(shù)字組成的專用數(shù)據(jù)庫）。

有監(jiān)督，無監(jiān)督和強化學習

什么是深度學習？

上述過程稱為“監(jiān)督學習”，它是目前開發(fā)深度學習算法的主要方式。它被稱為監(jiān)督，因為AI模型被給予一整套問題（例如圖像）及其解決方案（例如它們的相關(guān)標簽或描述），并被指示在輸入和輸出之間找到正確的映射。監(jiān)督學習用于諸如計算機視覺和語音識別之類的領(lǐng)域。

無監(jiān)督學習是另一種深度學習模型，用于解決您擁有大量數(shù)據(jù)的問題，但是您沒有相應的輸出來映射它們。在這種情況下，深度學習算法必須仔細閱讀訓練數(shù)據(jù)并找到有用的模式，否則這些模式需要大量的人力。

例如，深度學習算法可以獲得10年的銷售數(shù)據(jù)，并為您提供有關(guān)如何調(diào)整商品價格以最大化銷售額的銷售預測或建議。這些被稱為預測性和規(guī)范性分析，在許多領(lǐng)域都很有用，例如天氣預報和內(nèi)容推薦。

強化學習，另一種深度學習模式訓練，被許多人視為“人工智能的圣杯”。在強化學習中，AI模型提供了問題域的基本規(guī)則，并且可以在沒有人類監(jiān)督或數(shù)據(jù)的情況下自行發(fā)展其行為。

強化學習是開發(fā)人工智能模型的主要方法之一，這些模型已經(jīng)掌握了著名的游戲，如國際象棋，圍棋，撲克，以及最近的星際爭霸II。科學家們還利用強化學習來開發(fā)機器人手，教他們自己處理物體，這是人工智能行業(yè)面臨的嚴峻挑戰(zhàn)之一。盡管強化學習是AI的一個非常令人興奮的領(lǐng)域，但它也具有非常明顯的限制，并且在計算資源方面要求很高。強化學習在實驗室中表現(xiàn)非常有趣，但它在現(xiàn)實世界的應用中表現(xiàn)還比較有限。

深度學習在現(xiàn)在成為可能的原因

雖然深度學習在近十年早些時候開始流行，但它并不新鮮。神經(jīng)網(wǎng)絡的概念可以追溯到20世紀50年代，當時第一個神經(jīng)網(wǎng)絡Mark I Perceptron被開發(fā)出來。

神經(jīng)網(wǎng)絡也在20世紀80年代和90年代被討論過，但由于它們的性能有限以及它們的數(shù)據(jù)和計算能力的需求而最終放棄。當時，創(chuàng)建深度學習模型所需的數(shù)據(jù)和計算資源不夠用，訓練深度學習模型需要大量時，使用其他方法在資源需求和結(jié)果方面更為現(xiàn)實。

什么是深度學習？

Mark I Perceptron是1957年神經(jīng)網(wǎng)絡的第一個實現(xiàn)（來源：維基百科）

現(xiàn)在，數(shù)據(jù)和計算都已廣泛可用且價格低廉。有大量的GPU和專用硬件可以幫助以非常快的速度訓練深度學習模型。PaperSpace和Crestle等云計算服務專門用于深度學習。

深度學習的應用

深度學習目前已進入許多不同領(lǐng)域。以下是深度學習的一些熱門應用：

自動駕駛汽車
：為了在沒有駕駛員的情況下駕駛，自動駕駛汽車需要能夠理解周圍環(huán)境。深度學習算法從安裝在汽車周圍的攝像機攝取視頻信號，并檢測路牌，交通信號燈，其他汽車和行人。深度學習是無人駕駛汽車的主要組成部分之一（但不是唯一的）。
面部識別
：面部識別目前用于許多不同的領(lǐng)域，例如解鎖iPhone，付款和查找罪犯。以前的技術(shù)迭代需要大量的手動工作，并且不太可靠。通過深度學習，面部識別系統(tǒng)僅需要查看一個人的幾個圖像，并且能夠以實時和準確的方式實時檢測該人的面部照片和視頻?；谌斯ぶ悄艿拿娌孔R別目前處于道德辯論的中心，因為它具有潛在的險惡用途。
語音識別和轉(zhuǎn)錄
：訓練有素的深度學習模型可以將音頻流轉(zhuǎn)換為書面文本，并且比以前的任何轉(zhuǎn)錄技術(shù)都更加準確。深度學習使智能揚聲器能夠解析用戶提供的語音命令。除了抄寫文本之外，深度學習還可以幫助區(qū)分不同人的聲音并確定誰在說話。
機器翻譯
：在深度學習之前，自動翻譯系統(tǒng)的質(zhì)量非常有限，并且很難開發(fā)，需要為每種語言對單獨進行。近年來，谷歌等科技巨頭一直在使用深度學習來提高機器翻譯系統(tǒng)的質(zhì)量。深度學習對人類語言的理解是有限的，但它在簡單的翻譯中表現(xiàn)得非常好。
醫(yī)學成像
：深度學習模型可以幫助醫(yī)生自動化分析X射線和MRI掃描，發(fā)現(xiàn)癥狀和診斷疾病的過程。深度學習不會取代放射科醫(yī)師，但肯定會幫助他們在工作中變得更好。

深度學習的局限

什么是深度學習？

由引腳和線創(chuàng)建的神經(jīng)網(wǎng)絡

深度學習解決了許多以前被認為是計算機禁區(qū)的問題，但深度學習的成就也導致了許多錯誤的解釋和對其能力的過高期望。雖然深度學習是一項非常令人興奮的技術(shù)，但它也有明顯的限制。

優(yōu)步人工智能的前負責人、紐約大學教授加里·馬庫斯，在他的深度論文《深度學習：批判性評價》中，詳細介紹了深度學習的局限性和挑戰(zhàn)，總結(jié)為以下幾點。：

深度學習需要大量數(shù)據(jù)
。與人類不同，他們可以根據(jù)有限和不完整的數(shù)據(jù)學習概念并做出可靠的決策，深度學習模型通常只能與他們接受培訓的數(shù)據(jù)的質(zhì)量和數(shù)量一樣好。這在標注數(shù)據(jù)不可用的領(lǐng)域中構(gòu)成限制。
深度學習模型很淺
：深度學習和神經(jīng)網(wǎng)絡在訓練之外的領(lǐng)域應用知識的能力非常有限，并且當他們在訓練過的狹窄領(lǐng)域之外使用時，他們可能以驚人和危險的方式失敗。
深度學習是不透明的
：與其他機器學習模型不同，深度學習涉及非常少的自上而下的人類設計。它們也非常復雜，涉及數(shù)千和數(shù)百萬個參數(shù)。這使得很難解釋他們的輸出和他們決定背后的原因。由于它們的不透明性，神經(jīng)網(wǎng)絡被描述為黑盒子。這個問題引發(fā)了一系列努力和研究，以創(chuàng)建可解釋的人工智能。

深度學習和神經(jīng)網(wǎng)絡通常與人類智能進行比較。但是，雖然深度學習可以執(zhí)行一些與人類相同或更好的復雜任務，但它的工作方式與人類思維有著根本不同。它在常識和抽象決策中特別受到限制。

深度學習的威脅

深度學習是一個非常強大的工具。但與其他所有有效技術(shù)一樣，它也有自己的缺陷。

深度學習模型容易出現(xiàn)算法偏差，因為它從訓練數(shù)據(jù)中得出其行為。這意味著嵌入在訓練樣例中的任何隱藏或明顯的偏差也將進入深度學習算法所做的決策。

在過去幾年中，有幾個案例發(fā)現(xiàn)深度學習模式歧視特定人群。例如，去年10月，亞馬遜不得不關(guān)閉AI招聘工具，因為它對女性申請人有偏見。

在錯誤的人手中，深度學習可以服務于非常邪惡的目的。隨著深度學習在創(chuàng)建自然的圖像和聲音方面變得越來越有效，人們擔心該技術(shù)可能會被用于創(chuàng)建一種新的基于AI的偽造犯罪。去年，關(guān)于FakeApp的爭議很多，F(xiàn)akeApp是一個使用深度學習來交換視頻中人物面孔的視頻應用程序。有人用該應用程序?qū)⒚撕驼偷拿婵字糜谏橐曨l中。

深度學習的另一個威脅是對抗性攻擊。由于它們的創(chuàng)建方式，深度學習算法可以以意想不到的方式運行 - 或者至少以對我們?nèi)祟悂碚f似乎不合邏輯的方式運行。鑒于神經(jīng)網(wǎng)絡的不透明性，很難找到它們包含的所有邏輯錯誤。

專家和研究人員一再表明，這些失敗可能會變成對抗性攻擊－－惡意行為者強迫深層學習算法表現(xiàn)出危險的行為。例如，研究人員能夠通過在停車標志上粘貼幾個彩色貼紙來欺騙自動駕駛汽車的視覺算法。對于人類來說，它仍然看起來像一個停止標志，但無人駕駛汽車會完全錯過并可能造成危險的情況。