一文帶你看遍深度學習發(fā)展的成就歷程(一)

CDA數(shù)據(jù)分析師 2019-06-25

展開全文

在這篇文章中，作者將描述17年在機器學習領域中發(fā)生了什么有趣的重大發(fā)展,主要是深度學習領域。在17年中發(fā)生了很多事情，在作者停下來進行回顧的時候，他發(fā)現(xiàn)了這些發(fā)展的成就是非常壯觀的，下面讓我們來在作者的帶領下認識一下17年在深度學習中發(fā)展的領域的狀況，這篇文章很可能會影響我們在數(shù)據(jù)科學領域未來的發(fā)展。

1.文字

1.1 谷歌神經機器翻譯

2016年左右，谷歌宣布推出谷歌翻譯新模式。谷歌公司詳細描述翻譯的網絡架構 - 回歸神經網絡（RNN）。

而最后的主要結果是：縮小了機器與人類在翻譯準確性方面上的差距，達到了55-85％（人們按照六分制進行評分）。如果Google沒有擁有的龐大數(shù)據(jù)集，那么很難重新呈現(xiàn)這個模型的高效果性。

1.2 人機交流是否會有市場？

你可能在過去聽到了一個古怪的新聞，新聞的內容是Facebook關閉了它的聊天機器人，原因是這個聊天機器人已經失去了控制并創(chuàng)造了自己的語言。這個聊天機器人是由FB公司創(chuàng)建的。它的主要目的是與另一個代理人進行文本交流并達成共識：如何將一個物品（書籍，帽子等）分成兩部分。每個代理人在交流中都有自己的目標，而對方則不知道對方的目標。在沒有達成協(xié)議的情況下不可能離開這場交流。

在訓練這方面，他們收集了人類交流談話的數(shù)據(jù)集，并培訓了一個受監(jiān)督的神經網絡。然后，他們使用了一個強化學習訓練的代理人并訓練它與自己交談，并設定了一個限制：使用的語言必須跟人類的語言相似。

機器人已經學會了一種真正的交流策略，比如在交易的某些方面表現(xiàn)出虛假的興趣，但是后來放棄了這部分興趣，然后從真正的目標中獲益。這是第一次嘗試創(chuàng)建出這樣一個交互式的機器人，而且是非常成功的。

當然，有關于說機器人從零開始發(fā)明了一種語言的消息無疑是有夸大的成分在里面的。當機器人訓練時（與同一個代理人進行談判時），他們取消了了文本必須和人類語言有相似性的限制，算法修改了交互語言。沒什么不尋常的。

在過去的一年中，神經網絡已經正在被積極的應用并得到了發(fā)展，不斷的被開發(fā)并用于許多任務和應用程序中。但RNN的體系結構變得更加復雜，但在某些領域，通過簡單的前饋網絡（DSSM）也取得了類似的結果。例如，Google的郵件功能Smart Reply與之前的LSTM達到了相同的質量。此外，Yandex還推出了基于此類網絡的新搜索引擎。

2.聲音

2.1 WaveNet：原始音頻的生成模型

DeepMind的員工在他們的文章中報道了如何生成音頻。簡而言之，研究人員基于以前的圖像生成方法（PixelRNN和PixelCNN）制作了一個自回歸全卷積波網模型。

網絡經過端到端的訓練：輸入文本，輸出音頻。研究得到了很好的結果，與人類相比，研究的結果差異減少了50％，取得了較好的效果。

網絡的主要缺點是生產率低，因為自動回歸是按順序產生聲音的，創(chuàng)建一秒鐘的音頻需要大約1-2分鐘的時間。

看看......抱歉，聽聽下面這個例子。

如果你刪除網絡模型對輸入文本的依賴性并且只依賴于對先前生成并保留下來的音素，那么網絡將生成一段毫無意義的類似于人類語言的音素。

聽聽下面這段生成聲音的音頻。

同樣的模式不僅僅可以應用于語言，還可以應用于例如創(chuàng)建音樂。想象一下由模型生成的音樂，這是使用鋼琴游戲的數(shù)據(jù)集所進行訓練的（同樣不依賴于輸入數(shù)據(jù)）。

2.2 讀唇術

讀唇是另一項深度學習的成就和對人類挑戰(zhàn)的勝利。

谷歌Deepmind與牛津大學合作，在文章《 Lip Reading Sentences in the Wild 》報告了他們的模型是如何獲取數(shù)據(jù)進行訓練并超越BBC頻道中的專業(yè)的唇語讀者的。

數(shù)據(jù)集中有100,000個帶有音頻和視頻的句子。型號：音頻LSTM，視頻CNN + LSTM。這兩個狀態(tài)向量被輸入到最終的LSTM，并最終有LSTM生成結果（字符）。

在訓練期間使用了不同類型的輸入數(shù)據(jù)：音頻，視頻和音頻+視頻。換句話說，它是一個“全方位”的模型。

2.3 合成奧巴馬的演講視頻：視頻、音頻、唇語的同步

華盛頓大學在創(chuàng)造美國前總統(tǒng)奧巴馬的嘴唇運動方面做了大量工作。因為他的在線演講視頻數(shù)量巨大（17小時的高清視頻），所以華盛頓大學的人選的選擇就落在他身上。

由于他們有太多的工作，所以他們不可能每天都去跟神將網絡相處。因此，他們制作了一些拐杖（或者說技巧，如果你喜歡這個詞語的話）來改進紋理和時間。

你可以看到結果非常令人驚訝。我相信很快的，你就不會相信在網上看到的有關總統(tǒng)的視頻了。

3.計算機視覺

3.1 OCR：谷歌地圖和街景

在他們的帖子和文章中，谷歌Brain團隊報告了他們如何在其地圖中引入一種新的OCR（光學字符識別）引擎，通過該引擎可以識別街道標志和商店標志。

在技術開發(fā)過程中，公司編制了一個新的FSNS（法語街道名稱標識），其中包含許多復雜的案例。

為了識別每個標志，該網絡使用了每個標志多達四張照片。使用CNN提取特征，在空間注意力的幫助下進行縮放（考慮像素坐標），并將結果饋送到LSTM。

同樣的方法適用于在招牌上識別商店名稱的任務（可能存在大量“噪音”數(shù)據(jù)，并且網絡本身必須“聚焦”在正確的位置）。該算法應用于800億張照片。

3.2 視覺推理

有一種稱為視覺推理的任務，要求神經網絡使用一張照片來回答一個問題。例如：“圖中是否有與黃色金屬圓筒相同尺寸的橡膠？”這個問題真的很重要，直到最近，這個問題才得以解決，但是這個問題的準確率只有68.5%。

但是，Deepmind團隊在這個問題上實現(xiàn)了突破：在CLEVR數(shù)據(jù)集上，他們達到了95.5％的超人精度。

網絡架構非常有趣：

利用預先訓練的LSTM對文本問題進行嵌入。
將CNN（僅四層）的圖片，得到特征圖（特征描述圖片）。
接下來，我們在特征圖上形成坐標切片的成對組合（下圖中的黃色，藍色，紅色），為每個切片添加坐標并將文本嵌入其中。
我們通過另一個網絡驅動所有這些三元組并總結。
生成的演示文稿通過另一個前饋網絡運行，該網絡提供softmax的答案。

3.3 Pix2Code

Uizard公司創(chuàng)建了一個有趣的神經網絡應用程序：根據(jù)界面設計師的屏幕截圖生成代碼。

這是一個非常有用的神經網絡應用程序，它可以使開發(fā)軟件時的生活變得很輕松。作者聲稱它們的準確率達到了77％。然而，這個程序仍然在研究中，還沒有關于實際使用的討論。

目前還沒有開源的代碼或數(shù)據(jù)集，但是他們承諾未來將進行開源。

3.4 草圖循環(huán)神經網絡（RNN）：教一臺機器畫畫

也許你已經看過Quick，Draw！這個程序來自Google，其目標是在20秒內繪制各種對象的草圖讓程序進行識別。該公司收集了用戶繪畫的數(shù)據(jù)集，以教導神經網絡繪制圖片。

收集的數(shù)據(jù)集由7萬張草圖組成，最終可以公開使用。草圖不是圖片，而是圖片的詳細矢量表示（此時用戶按下“鉛筆”，在線條被繪制的地方釋放，等等）。

研究人員使用RNN作為編碼/解碼機制，訓練了序列到序列變分自動編碼器（VAE）。

最終，與自動編碼器相匹配的是，模型接收到一個潛在的向量，該向量表示原始圖像的特征。

雖然解碼器可以從一個向量中提取繪圖，但是你可以更改它并獲得一份新的草圖。

甚至可以執(zhí)行向量運算創(chuàng)建出一直豬貓（那不就是橘貓咯）：

3.5 GANs

深度學習中最熱門的話題之一就是生成對抗網絡（GAN）。生成對抗網絡（GAN）是一類用于無監(jiān)督機器學習的神經網絡。它們有助于解決諸如描述圖像生成，從低分辨率圖像獲取高分辨率圖像，預測哪種藥物可以治療某種疾病，檢索包含給定模式的圖像等任務。大多數(shù)情況下，這個概念用于處理圖像。

這個想法是在兩個網絡的競爭中產生的 - 發(fā)生器和鑒別器。第一個網絡創(chuàng)建一個圖片，第二個網絡試圖了解圖片是真實的還是生成的。

原理圖看起來是這樣的：

在訓練過程中，來自隨機矢量（噪聲）的發(fā)生器生成圖像并將其傳送到鑒別器的輸入中，該鑒別器判斷它是否是假的。鑒別器還會從數(shù)據(jù)集中獲得真實圖像進行判斷。

由于難以找到兩個網絡的平衡點，因此難以對這種結構進行訓練。大多數(shù)情況下，鑒別者獲勝訓練停滯不前。然而，該系統(tǒng)的優(yōu)點是我們可以解決我們很難設置損失函數(shù)的問題（例如，提高照片的質量），我們將其提供給鑒別器進行設置。

GAN訓練結果的典型例子是臥室或人的照片

在這之前，也曾考慮了自動編碼（Sketch-RNN），它將原始數(shù)據(jù)編碼為潛在的表示形式。生成器也是如此。

使用向量生成圖像的思想在下面這個項目中的人臉中得到了清晰的展示。你可以更改向量并查看面部的變化方式。

同樣的算法也適用于潛在的空間：“一個戴眼鏡的男人”減去“一個男人”加上“一個女人”等于“一個戴眼鏡的女人”。

3.6 用GAN改變面部年齡

如果在訓練期間像潛在向量傳輸一個受控的參數(shù)，那么當生成它時，你就可以更改它，從而管理圖片中的必要圖像。這種方法稱為條件GAN。

“使用條件生成性對抗網絡進行面部老化”這篇文章的作者也是如此。研究人員在IMDB數(shù)據(jù)集上堆引擎進行了已知演員年齡的訓練，然后給了研究人員改變人臉年齡的機會。

3.7 專業(yè)的照片

Google還發(fā)現(xiàn)了GAN的另一個有趣的應用 - 照片的選擇和改進。GAN是在一個專業(yè)的照片數(shù)據(jù)集上進行訓練的：生成器正在嘗試改善糟糕的照片（變成專業(yè)的拍攝照片并在特殊過濾器的幫助下進行降級）而鑒別器用來 - 區(qū)分“改進的”照片和真正的專業(yè)照片。

經過訓練的算法通過Google街景全景圖搜索最佳構圖，并收到一些專業(yè)和半專業(yè)質量的照片（根據(jù)攝影師的評分）。

3.8 從文本描述中合成圖像

GAN的一個令人印象深刻的示例是使用文本生成圖像。

這項研究的作者建議將文本嵌入到一個生成器（條件GAN）和一個識別器的輸入中，以便驗證文本與圖片的對應關系。為了確保鑒別器學會執(zhí)行它的功能，除了訓練之外，他們還為真實的圖片添加了帶有錯誤文本的配對。

3.9 Pix2pix

2016年最引人注目的文章之一是伯克利人工智能研究院（BAIR）的“有條件對抗網絡的圖像對圖像翻譯”（“Image-to-Image Translation with Conditional Adversarial Networks“）。研究人員解決了圖像到圖像的生成問題，例如，需要使用衛(wèi)星圖像創(chuàng)建地圖，或者使用草圖創(chuàng)建對象的真實紋理。