日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

 羅宋湯的味道 2019-10-09
世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

LSTM的發(fā)明人、著名深度學習專家Jürgen Schmidhuber詳細論述了近30年前,即1990~1991年之間他和團隊進行的許多研究。他們的早期思想為當今的許多深度學習前沿研究奠定了基礎,包括 LSTM、元學習、注意力機制和強化學習等。

近日,LSTM 的發(fā)明人、著名深度學習專家 Jürgen Schmidhuber 發(fā)表了一篇長文,詳細論述了近 30 年前,即 1990~1991 年之間他和團隊進行的許多研究。

Jürgen 表示,深度學習革命背后的許多基本思想,是在 1990~1991 年不到 12 個月的時間里,在慕尼黑理工大學 (TU Munich) 產生的,而這些思想為當今的許多深度學習前沿研究奠定了基礎,包括 LSTM、元學習、注意力機制和強化學習等。

Jürgen 稱這一年為 “奇跡之年”。盡管當時他們發(fā)表的工作幾乎無人問津,但四分之一個世紀后,基于這些想法的神經網絡不斷得到改進,其應用出現在智能手機等 30 多億設備、每天被使用數十億次,在全世界消耗大量的計算資源。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

在 AI 領域,深度學習三巨頭 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 人盡皆知,Jürgen Schmidhuber 的知名度卻遠不及三人,盡管他發(fā)明的 LSTM 被認為是教科書級別的貢獻。他是被圖靈獎遺忘的大神。在Hinton等三巨頭獲圖靈獎之時,Jürgen卻得到了很大的呼聲:“為什么Jürgen沒有得圖靈獎?”

Jürgen Schmidhuber 是瑞士 Dalle Molle 人工智能研究所的聯合主任,他 1997 年提出的 LSTM 現在被廣泛應用在谷歌翻譯、蘋果 Siri、亞馬遜 Alex 等應用中,可謂是深度學習領域最商業(yè)化的技術之一。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

Jürgen Schmidhuber

除了 LSTM 之外,Jürgen Schmidhuber “引以為傲” 的還有他在 1992 年提出的 PM(Predictability Minimization)模型。他堅持認為現在大火的 GAN 就是 PM 的變種,兩者的區(qū)別就在于方向是反的,為此,Jürgen 還和 GAN 的提出者 Ian Goodfellow 有過線上線下激烈的交鋒,引起業(yè)界廣泛討論。

至于對深度學習三巨頭 Hinton、Bengio 和 LeCun,Jürgen Schmidhuber 也打過幾輪口水仗,認為三人在自己的圈子里玩,對深度學習領域其他更早期先驅人物的貢獻則只字不提。

是否人們對 Jürgen Schmidhuber 的貢獻認知過少?這篇文章詳述了 Jürgen 和他的團隊在 “奇跡之年” 做出的許多研究,提出的許多思想,非常值得一看。

本文的目錄如下:

  • 第 0 節(jié):深度學習的背景:神經網絡
  • 第 1 節(jié):第一個非常深的神經網絡,基于無監(jiān)督預訓練 (1991)
  • 第 2 節(jié):將神經網絡壓縮 / 蒸餾成另一個 (1991)
  • 第 3 節(jié):基本的深度學習問題:梯度消失 / 爆炸 (1991)
  • 第 4 節(jié):長短時記憶網絡:有監(jiān)督深度學習 (1991 年以來的基本想法)
  • 第 5 節(jié):通過對抗生成神經網絡的人工好奇心 (1990)
  • 第 6 節(jié):通過最大化學習神經網絡學習進度的人工好奇心 (1991)
  • 第 7 節(jié):用于無監(jiān)督數據建模的對抗網絡 (1991)
  • 第 8 節(jié):端到端可微快速權重:讓神經網絡學習編程神經網絡 (1991)
  • 第 9 節(jié):通過神經網絡學習序列注意力 (1990)
  • 第 10 節(jié):分層強化學習 (1990)
  • 第 11 節(jié):用循環(huán)神經世界模型做規(guī)劃和強化學習 (1990)
  • 第 12 節(jié):將目標定義作為額外的 NN 輸入 (1990)
  • 第 13 節(jié):作為 NN 輸入 / 通用值函數的高維獎勵信號 (1990)
  • 第 14 節(jié):確定性策略梯度 (1990)
  • 第 15 節(jié):用網絡來調整網絡 / 合成梯度 (1990)
  • 第 16 節(jié):在線遞歸神經網絡的 O (n^3) 梯度 (1991)
  • 第 17 節(jié):深層神經熱交換器 (1990)
  • 第 18 節(jié):博士論文 (1991 年)
  • 第 19 節(jié):從無監(jiān)督預訓練到純粹監(jiān)督學習 (1991-95 和 2006-11)
  • 第 20 節(jié):20 世紀 90 年代 FKI 人工智能技術報告系列
  • 第 21 節(jié):結束語
  • 0、深度學習的背景:神經網絡

人腦大約有 1000 億個神經元,每個神經元平均與其他 1 萬個神經元連接。有些是輸入神經元,將數據 (聲音、視覺、觸覺、疼痛、饑餓) 喂給其他神經元。其他的是控制肌肉的輸出神經元。大多數神經元隱藏在思考發(fā)生的位置。你的大腦顯然是通過改變連接的強度或權重來學習的,這些強度或權重決定了神經元之間的相互影響的強度,而這些神經元似乎編碼了你一生的經歷。人工神經網絡 (NNs) 與之類似,它能比以前的方法更好地學習識別語音、手寫文字或視頻、最小化痛苦、最大化樂趣、駕駛汽車,等等。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

當前的商業(yè)應用大多集中在監(jiān)督學習,使神經網絡模仿人類教師。在許多試驗中,Seppo Linnainmaa 于 1970 年提出的梯度計算算法,今天通常稱為反向傳播或自動微分的反向模式,以逐步削弱某些神經網絡連接和加強其他連接的方式,使神經網絡行為越來越像老師。

今天最強大的神經網絡往往都非常深,也就是說,它們有許多層神經元或許多后續(xù)的計算階段。然而,在 20 世紀 80 年代,基于梯度的訓練并不適用于深度神經網絡,只適用于淺層神經網絡。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

這個問題在循環(huán)神經網絡 (RNN) 中表現得最為明顯。與更有限的前饋神經網絡 (FNN) 不同,RNN 具有反饋連接。這使得 RNN 功能強大,通用的并行序列計算機可以處理任意長度的輸入序列 (例如語音或視頻)。原則上,RNN 可以實現在筆記本電腦上運行的任何程序。如果我們想要構建一個通用人工智能 (AGI),那么它的底層計算基礎必須是類似于 RNN 的東西 ——FNN 從根本上是不夠的。RNN 與 FNN 的關系就像普通計算機與計算器的關系一樣。

特別是,與 FNN 不同,RNN 原則上可以處理任意深度的問題。然而,20 世紀 80 年代早期的 RNN 在實踐中未能學習到深層次的問題。我想克服這個缺點,實現基于 RNN 的 “通用深度學習”。

1、第一個非常深的神經網絡,基于無監(jiān)督預訓練 (1991)

我克服上面提到的深度學習問題的第一個想法是,通過對一組分層的 RNN 進行無監(jiān)督預訓練來促進深度 RNN 中的監(jiān)督學習 (1991),從而得到了第一個 “非常深的神經網絡”,我稱之為Neural Sequence Chunker。換句話說,chunker 學習壓縮數據流,使得深度學習問題不那么嚴重,可以通過標準的反向傳播來解決。盡管那時的計算機比現在慢一百萬倍,但到 1993 年,我的方法已經能夠解決以前無法解決的 “深度學習” 任務,神經網絡的層數超過了 1000 層。1993 年,我們還發(fā)布了一個后續(xù)版本的 Neural History Compressor。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

據我所知, Sequence Chunker 也是第一個由在不同時間尺度上運行的 RNN 組成的系統(tǒng)。幾年后,其他人也開始發(fā)表關于多時間尺度的 RNN 的研究。

這項工作發(fā)表十多年后,一種用于更有限的前饋神經網絡的類似方法出現了,稱為深度置信網絡 (DBN)。該論文的證明基本上就是我在 1990 年代早期為我的 RNN 堆棧使用的證明:每一個更高的層都試圖減少下面層中數據表示的描述長度 (或負對數概率)。

在上述基于無監(jiān)督預訓練的深度學習網絡之后不久,深度學習問題也通過我們的純監(jiān)督 LSTM 得以克服。

當然,前饋神經網絡的深度學習開始得更早,早在 1965 年,Ivakhnenko 和 Lapa 就發(fā)表了第一個通用的、用于任意層數的深度多層感知器的學習算法。但是,與 Ivakhnenko 在 70 年代和 80 年代提出的深度 FNN 網絡不同,我們的深度 RNN 具有通用的并行訓練計算架構。到上世紀 90 年代初,大多數神經網絡研究仍局限于相當淺的網絡,后續(xù)計算階段少于 10 個,而我們的方法已經支持了 1000 多個這樣的階段。我想說的是,是我們讓神經網絡變得如此之深,尤其是 RNN,它是所有網絡中最深、最強大的。

2、將神經網絡壓縮 / 蒸餾成另一個 (1991)

我在上述有關 Neural History Compressor 的論文中還介紹了一種將網絡層次結構壓縮到單個深度 RNN 的方法,從而學會了解決非常深入的問題。將一個神經網絡的知識轉移到另一個神經網絡的一般原理是,假設教師 NN 已學會預測數據,通過訓練學生 NN 模仿教師 NN 的行為,它的知識可以壓縮到學生 NN 中。

我稱之為將一個網絡的行為 “collapsing” 或 “compressing” 到另一個。今天,這個概念已經被廣泛使用,也被稱為將教師網絡的行為 “蒸餾”(distilling) 或 “克隆” 到學生網絡。

3、基本的深度學習問題:梯度消失 / 爆炸 (1991)

前文我們指出深度學習很難。但為什么很難呢?一個主要原因是,我喜歡稱之為 “基本深度學習問題”,由我的學生 Sepp Hochreiter 1991 年在他的畢業(yè)論文 [VAN1] 中提出和分析。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

作為論文的一部分,Sepp 實現了上述 (第 1 節(jié)) 的 Neural History Compressor 和其他基于 RNN 的系統(tǒng) (第 11 節(jié))。但是,他做了更多的工作:他的工作正式表明,深度神經網絡遭受梯度消失或梯度爆炸問題:在典型的深度網絡或循環(huán)網絡中,反向傳播的錯誤信號要么迅速縮小,要么超出界限。在這兩種情況下,學習都會失敗。這種分析引出了 LSTM 的基本原理 (第 4 節(jié))。

4、長短時記憶網絡:有監(jiān)督深度學習

長短時記憶神經網絡 (LSTM) 克服了 Sepp 在其 1991 年的畢業(yè)論文中提出的基本深度學習問題。我認為這是機器學習歷史上最重要的論文之一。它還通過我們在 1995 年的技術報告 [LSTM0] 中所稱的 LSTM 的基本原理為解決這個問題提供了重要的見解。這導致了下面描述的大量后續(xù)工作。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

明年,我們將慶祝 LSTM 首次投稿時未能通過同行評審 25 周年。在 1997 年主要的同行評審出版物 [LSTM1](現在是神經計算歷史上引用最多的文章) 之后,LSTM 得到了進一步的改進。一個里程碑是帶有 forget gate [LSTM2] 的 “vanilla LSTM 架構”——1999-2000 年的 LSTM 變體,現在每個人都在使用,例如,在谷歌的 Tensorflow 中。LSTM 的遺忘門實際上是一種端到端可微的快速權值控制器,我們在 1991 年也介紹了這種控制器。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

Alex 是我們第一次成功地將 LSTM 應用于語音的主要作者 (2004)[LSTM14]。2005 年,第一個具有時間反向完全傳播功能的 LSTM 和雙向 LSTM 發(fā)布 [LSTM3](現在廣泛使用)。2006 年的另一個里程碑是用于同時對齊和識別序列的訓練方法 “連接時間分類” 或 CTC。自 2007 年以來,CTC 成為基于 LSTM 的語音識別的關鍵。例如,在 2015 年,CTC-LSTM 組合顯著改善了谷歌的語音識別 [GSR15]。

在 21 世紀初,我們展示了 LSTM 如何學習傳統(tǒng)模型 (如隱馬爾可夫模型) 無法學習的語言 [LSTM13]。這花了一段時間;但到了 2016~2017 年,谷歌翻譯 [GT16] 和 Facebook 翻譯 [FB17] 均基于兩個連接 LSTM,一個用于輸入文本,一個用于輸出翻譯,性能比以前的翻譯模型要好得多。

2009 年,我的博士生 Justin Bayer 是一個自動設計類似 LSTM 架構的系統(tǒng)的主要作者,該系統(tǒng)在某些應用程序中表現優(yōu)于普通 LSTM。2017 年,谷歌開始使用類似的 “神經架構搜索”[NAS]。

這一切的基礎都是在 1991 年奠定的。

5、通過對抗生成神經網絡的人工好奇心 (1990)

當人類與世界互動時,他們學會預測自己行為的后果。他們也很好奇,設計實驗得出新的數據,從中他們可以學到更多。為了構建好奇的人工智能體,我在 1990 年介紹了一種新型的主動無監(jiān)督學習或自監(jiān)督學習。它基于一個極小極大博弈,其中一個神經網絡最小化另一個神經網絡最大化的目標函數。我把這兩種無監(jiān)督的對抗性神經網絡之間的決斗稱為對抗性好奇心 (Adversarial Curiosity)[AC19],以區(qū)別于人工好奇心 (Artificial Curiosity)。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

6、通過最大化學習神經網絡學習進度的人工好奇心 (1991)

在這里,我重點介紹 1991 年 [AC91] [AC91b] 對對抗性好奇心 (Adversarial Curiosity) 的第一個重要改進。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

AC1990 世界模型 M 的誤差 (待最小化) 是控制器 C 的獎勵 (待最大化)。這在許多確定性環(huán)境中是一個很好的探索策略。然而,在隨機環(huán)境中,這可能會失敗。C 可能會學習把重點放在 M 總是由于隨機性或由于其計算限制而得到高預測誤差的情況上。

因此,正如 1991 年的論文指出的,在隨機環(huán)境中,C 的獎勵不應該是 M 的誤差,而應該是 M 的誤差在后續(xù)訓練迭代中的一階導數的近似,即 M 的改進。這一認識指導了許多相關的后續(xù)工作。

7、用于無監(jiān)督數據建模的對抗網絡 (1991)

1990 年我第一次研究對抗性生成網絡后不久,我介紹了一個非監(jiān)督對抗性極小極大值原理的變體。神經網絡最重要的任務之一就是學習圖像等給定數據的統(tǒng)計量。為了實現這一點,我再次在一個極小極大博弈中使用了梯度下降 / 上升的原理,在這個博弈中,一個神經網絡最小化了另一個神經網絡最大化的目標函數。這兩個無監(jiān)督的對抗性神經網絡之間的決斗被稱為可預測性最小化 (Predictability Minimization, PM)。(與后來的 GAN 相反,PM 是一個純粹的極大極小博弈)。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

第一個使用 PM 的實驗是在大約 30 年前進行的,當時其計算成本大約是現在的 100 萬倍。當計算成本在 5 年后便宜了 10 倍時,我們可以證明,應用于圖像的半線性 PM 變體會自動生成特征檢測器。

8、端到端可微快速權重:讓神經網絡學習編程神經網絡 (1991)

一個典型的神經網絡比神經元有更多的連接。在傳統(tǒng)的神經網絡中,神經元激活變化快,而連接權值變化慢。也就是說,大量的權重無法實現短期記憶或時間變量,只有少數神經元的激活可以。具有快速變化的 “快速權重”(fast weights) 的非傳統(tǒng)神經網絡克服了這一限制。

神經網絡的動態(tài)連接或快速權值是由 Christoph v. d. Malsburg 于 1981 年提出的,其他學者對此進行了進一步的研究。然而,這些作者并沒有提出端到端可微分的系統(tǒng),通過梯度下降學習來快速操作快速權重存儲。我在 1991 年發(fā)表了這樣一個系統(tǒng),其中慢速神經網絡學習控制獨立的快速神經網絡的權值。也就是說,我將存儲和控制分開,就像在傳統(tǒng)計算機中那樣,但是以完全的神經方式 (而不是以混合方式)。后續(xù)的許多工作基于這一方法。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

我還展示了如何快速使用權重進行元學習或 “學習如何學習”(learning to learn),這是我自 1987 年以來的主要研究課題之一。

順便一提,同年我們在 Deep RL (但沒有快速權重) 方面也做了相關工作,據我所知,這是第一篇標題包含 'learn deep” 這個詞組的論文 (2005 年)。

如今,最著名的基于快速權重的端到端可微分神經網絡實際上就是我們的原始 LSTM 網絡,其遺忘門學會控制內部 LSTM 單元自循環(huán)連接的快速權重。所有主要的 IT 公司現在都大量使用 LSTM,而這可以追溯到 1991 年。

9、通過神經網絡學習序列注意力 (1990)

與傳統(tǒng)的神經網絡不同,人類使用連續(xù)的目光移動和選擇性注意力來檢測和識別模式。這可能比傳統(tǒng)的高度并行的 FNN 方法更有效。這就是為什么我們在 30 年前提出了序列注意力學習神經網絡。不久之后,我還明確地提到了 “內部注意力焦點” 的學習。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

因此,在那個時候,我們已經有了兩種現在常見的神經序列注意力類型:通過神經網絡中的乘法單元來實現端到端可微分的 “軟” 注意力,以及在強化學習環(huán)境下的 “硬” 注意力。后來的大量后續(xù)工作都基于此。如今,許多人都在使用序列注意力學習網絡。

10、分層強化學習 (1990)

傳統(tǒng)強化學習不能分層地將問題分解為更容易解決的子問題。這就是為什么我在 1990 年提出了分層 RL (HRL),使用端到端可微分的基于神經網絡的子目標生成器,以及學習生成子目標序列的循環(huán)神經網絡。RL 系統(tǒng)獲得形式 (start、goal) 的額外輸入。評估器 NN 學會預測從 start 到 goal 的獎勵 / 成本?;?RNN 的子目標生成器也可以看到 (start, goal),并使用評估器 NN (的副本) 通過梯度下降來學習一系列成本最低的中間子目標。RL 系統(tǒng)試圖使用這樣的子目標序列來實現最終目標。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

11、使用循環(huán)神經世界模型做規(guī)劃 (1990)

1990 年,我介紹了基于兩個 RNN 的組合 (分別稱為控制器 C 和世界模型 M) 的強化學習和規(guī)劃。M 學習預測 C 行為的后果。C 學習使用 M 提前規(guī)劃幾個時間步驟,并選擇最大化預測累積獎勵的動作序列?;诖艘灿性S多后續(xù)研究。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

12、將目標定義作為額外的 NN 輸入 (1990)

今天的強化學習神經網絡中廣泛使用的一個概念是使用額外的目標定義輸入模式來編碼許多任務,以便神經網絡知道下一步該執(zhí)行哪個任務。我們在 1990 年的許多工作中提出了這一概念。

具有端到端可微子目標生成器的分層強化學習 (Hierarchical RL) 也使用一個帶有任務定義輸入 (start, goal) 的神經網絡,學習預測從 start 到 goal 的成本。(四分之一個世紀后,我以前的學生 Tom Schaul 在 DeepMind 提出了 “通用值函數逼近器”。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

后來的大量工作都是基于此的。例如,我們的 POWERPLAY RL 系統(tǒng) (2011) 也使用任務定義輸入來區(qū)分任務,不斷地創(chuàng)造自己的新目標和任務,以一種主動的、部分不受監(jiān)督的或自我監(jiān)督的方式,逐步學習成為一個越來越通用的問題解決者。具有高維視頻輸入和內在動機的 RL 機器人 (如 PowerPlay) 在 2015 年學會了探索。

13、作為神經網絡輸入的高維獎勵信號 / 通用價值函數 (1990 年)

傳統(tǒng)的 RL 是基于一維獎勵信號的。然而,人類擁有數百萬種信息傳感器,可以感知不同類型的信息,如疼痛和快樂等。據我所知,參考文獻 [AC90] 是第一篇關于 RL 的論文,涉及多維度、向量值的獎勵信號,這些信號通過許多不同的傳感器傳入,這些傳感器的累積值是可以預測的,而不僅僅是單個標量的總體獎勵。比較一下后來的通用值函數 (general value function,GVF)。與以往的 adaptive critics 不同,它是多維和周期性的。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

與傳統(tǒng)的 RL 不同,這些獎勵信號也被用作控制器 NN 學習執(zhí)行動作的信息輸入,以實現累積獎勵的最大化。

14、確定性策略梯度 (1990)

我在 1990 年發(fā)表的論文 “Augmenting the Algorithm by Temporal Difference Methods” 中,也結合了基于動態(tài)規(guī)劃的時域差分法來預測一個基于梯度的世界預測模型的累積獎勵,以計算單獨控制網絡的權重變化。四分之一個世紀后,DeepMind 將其變體稱為確定性策略梯度算法 (Policy Gradient algorithm, DPG)。

15、調整網絡 / 合成梯度 (1990)

1990 年,我提出了各種學習調整其他 NNs 的 NNs。在這里,我將重點討論 “遞歸網絡中的局部監(jiān)督學習方法”。待最小化的全局誤差度量是 RNN 輸出單元在一段時間內接收到的所有誤差的總和。在常規(guī)反向傳播中,每個單元都需要一個堆棧來記住過去的激活,這些激活用于計算誤差傳播階段對權重變化的貢獻。我沒有使用堆棧形式的無限存儲容量,而是引入了第二種自適應 NN,該算法可以學習將 RNN 的狀態(tài)與相應的誤差向量相關聯。這些局部估計的誤差梯度(而非真實梯度)被用于調整 RNN。

與標準的反向傳播不同,該方法在空間和時間上都是局部的。四分之一個世紀后,DeepMind 將其稱為 “合成梯度”(Synthetic Gradients)。

16、在線遞歸神經網絡的 O (n^3) 梯度 (1991)

1987 年發(fā)表的固定大小的存儲學習算法用于完全循環(huán)連續(xù)運行的網絡,它要求每個時間步長進行 O (n^4) 計算,其中 n 是非輸入單元的數量。我提出了一種方法,該方法計算完全相同的梯度,需要固定大小的存儲,其順序與之前的算法相同。但是,每個時間步長的平均時間復雜度只有 O (n^3) 。然而,這項工作并沒有實際意義,因為偉大的 RNN 先驅 Ron Williams 首先采用了這種方法。

順便說一句,我在 1987 年也犯了類似的錯誤,當時我發(fā)表了我認為是第一篇關于遺傳編程 (GP) 的論文,也就是關于自動進化的計算機程序。直到后來我才發(fā)現,Nichael Cramer 早在 1985 年就已經提出了 GP。從那以后,我一直在努力做正確的事情。至少我們 1987 年的論文 [GP1] 似乎是第一篇在 GP 上使用循環(huán)和可變大小代碼的論文,也是第一篇在 GP 上使用邏輯編程語言實現的論文。

17、深度神經熱交換器 (1990)

神經熱交換器 (Neural Heat Exchanger) 是一種用于深度多層神經網絡的監(jiān)督學習方法。它的靈感來自物理熱交換器。輸入 “加熱”,同時通過許多連續(xù)的層進行轉換,目標從深層管道的另一端進入并 “冷卻”。與反向傳播不同,該方法完全是局部的。這使得它的并行實現變得微不足道。自 1990 年以來,它是在各大學的不定期演講中首次提出的,與亥姆霍茲機器 (Helmholtz Machine) 關系密切。同樣,實驗是由我的學生 Sepp Hochreiter 進行的。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

18、博士論文 (1990)

我在 TUM 的博士論文發(fā)表于 1991 年,總結我自 1989 年以來的一些早期工作,包括第一個強化學習 (RL) 神經經濟(Neural Bucket Brigade),學習算法,具有端到端微分子目標生成器的分層 RL(HRL),通過兩個稱為控制器 C 和世界模型 M 的 RNN 的組合進行 RL 和規(guī)劃,序列注意力學習 NN,學會調整其他 NN 的 NN (包括 “合成梯度”),以及用于實施好奇心的無監(jiān)督或自我監(jiān)督的生成對抗網絡。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

當時,其他人的神經網絡研究受到統(tǒng)計力學的啟發(fā)。我在 1990-91 年的工作體現了另一種面向程序的機器學習觀點。

庫爾特?哥德爾 (Kurt Godel) 在 1931 年創(chuàng)立了理論計算機科學,他用基于整數的通用編碼語言表示數據 (如公理和定理) 和程序 (如對數據進行操作的證明生成序列)。他展示了數學,計算和人工智能的基本極限。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

正如我在 1990 年以來經常指出的,NN 的權值應該被看作是它的程序。一些人認為深層神經網絡的目標是學習觀測數據的有用的內部表示,但我一直傾向于認為,神經網絡的目標是學習程序 (參數),并計算此類表示。受 G?del 的啟發(fā),我構建了神經網絡,其輸出是其他 NN 的程序或權重矩陣,甚至是可以運行和檢查自己的權重變化算法或學習算法的自引用 RNN。與 G?del 的工作不同的是,通用編程語言不是基于整數,而是基于實數值,因此典型 NN 的輸出就其程序而言是可微分的。也就是說,一個簡單的程序生成器(有效的梯度下降過程)可以在程序空間中計算一個方向,在該方向上可以找到更好的程序,尤其是更好的程序生成程序。自 1989 年以來,我的許多工作都充分利用了這一事實。

19、從無監(jiān)督預訓練到純粹監(jiān)督學習 (1991-1995 年和 2006-2011)

如第一節(jié)所述,我的第一個非常深的深度學習網絡是 1991 年的 RNN 堆棧,它使用無監(jiān)督的預訓練來學習深度大于 1000 的問題。但是,此后不久,我們發(fā)表了更多克服深度學習問題的通用方法,無需進行任何無監(jiān)督的預訓練,將無監(jiān)督的 RNN 棧替換為純監(jiān)督的長短時記憶網絡 (LSTM)。也就是說,由于 LSTM 不需要無監(jiān)督的訓練,無監(jiān)督訓練已經失去了重要性。事實上,從無監(jiān)督的訓練到純粹的監(jiān)督學習的轉變早在 1991 年就開始了。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

在 2006 年到 2010 年之間也發(fā)生了類似的轉變,這次是針對不太常用的前饋神經網絡 (FNNs),而不是遞歸神經網絡 (RNNs)。同樣,我的小實驗室在這個轉變中起到了中心作用。2006 年,FNNs 中的監(jiān)督學習是通過對 FNN 堆棧的無監(jiān)督預訓練來實現的。但在 2010 年,我們的團隊和我的博士后 Dan Ciresan 證明,深度 FNNs 可以通過簡單的反向傳播進行訓練,在重要的應用中完全不需要無監(jiān)督的預訓練。我們的系統(tǒng)在當時廣泛使用的圖像識別基準 MNIST 上創(chuàng)下了新的性能記錄。一位評論者稱這是 “喚醒了機器學習社區(qū)”。今天,很少有商業(yè) DL 應用仍然基于無監(jiān)督的預訓練。

我在瑞士人工智能實驗室 IDSIA 的團隊進一步完善了上述關于 FNNs 中純粹監(jiān)督式深度學習的工作 (2010),將傳統(tǒng)的 FNNs 替換為另一種 NN 類型,即 convolutional NNs 或 CNNs。這是一個實際的突破,并在 2011 年 5 月 15 日至 2012 年 9 月 10 日期間連續(xù) 4 次在重要計算機視覺比賽中獲勝。

20、20 世紀 90 年代 FKI 人工智能技術報告系列

事后看來,許多后來被廣泛使用的 “現代” 深度學習的基本思想,都是在柏林墻倒塌后不久的、不可思議的 1990-1991 年,在慕尼黑大學 (TU Munich) 發(fā)表的:無監(jiān)督或自我監(jiān)督、數據生成、對抗網絡 (認為好奇心和相關概念,見第 5 節(jié));深度學習的基本問題 (梯度消失 / 爆炸) 及其解決方案 (a) 針對深度 (周期性) 網絡的無監(jiān)督預訓練 (第 1 節(jié)) 和 (b) 通向 LSTM 的基本簡介 (第 4 節(jié))。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

我們當時還引入了序列注意力學習 NN,這是另一個流行的概念。再加上前面提到的所有其他東西,從分層強化學習 (第 10 節(jié)) 到使用循環(huán)神經網絡的世界模型進行規(guī)劃 (第 11 節(jié)) 等等。

當然,人們不得不等待速度更快的計算機來將這些算法商業(yè)化。然而,到 2010 年中期,我們的算法被蘋果,谷歌,Facebook,亞馬遜,三星,百度,微軟等公司大量使用,每天在數十億臺計算機上運行。

大多數上述結果實際上是首次發(fā)表是在慕尼黑工業(yè)大學的 FKI 技術報告系列,為此,我手工畫了很多插圖,本文的插圖就是其中一些。FKI 系列現在在人工智能的歷史中起著重要作用,因為它引入了幾個重要概念:用于非常深的神經網絡的無監(jiān)督預訓練、將一個 NN 壓縮 / 蒸餾成另一個、長短期記憶、通過神經網絡使學習進度最大化的好奇心 (Artificial Curiosity)、端到端快速權重和學會編程其他神經網絡的神經網絡、通過 NN 學習序列注意力、將目標定義命令作為額外的 NN 輸入、分層強化學習等等。

特別是,其中一些概念現在已經在整個 AI 研究領域被廣泛使用:使用循環(huán)神經世界模型進行規(guī)劃、作為額外的 NN 輸入的高維獎勵信號 / 通用值函數、確定性策略梯度、NN 既具有生成性又具有對抗性、人工好奇心和相關概念。1990 年代以后的引人注目的 FKI 技術報告描述了大幅壓縮 NN 以提高其泛化能力的方法。

21、結束語

深度學習是在官方語言不是英語的地方被發(fā)明的。第一個具有任意深度的神經網絡始于 1965 年的烏克蘭 (當時是蘇聯)。五年后,現代反向傳播方法在芬蘭出現 (1970)?;镜纳疃染矸e神經網絡架構是在 20 世紀 70 年代的日本發(fā)明的,到 1987 年,卷積網絡與權重共享和反向傳播相結合。無監(jiān)督或自我監(jiān)督的對抗網絡起源于慕尼黑 (1990 年),慕尼黑也是 20 世紀 80 年代第一批真正的自動駕駛汽車的誕生地?;诜聪騻鞑サ纳疃葘W習的基本問題也誕生于慕尼黑 (1991)。第一個克服這個問題的 “現代” 深度學習網絡也是如此,它們通過 (1) 無監(jiān)督的預訓練;和 (2) 長短時記憶 [LSTM] 克服這個問題,LSTM “可以說是最具商業(yè)價值的人工智能成果”。LSTM 是在瑞士進一步發(fā)展起來的,這也是第一個在圖像識別競賽獲勝的基于 GPU 的 CNN (2011 年),也是第一個在視覺模式識別中超越人類的神經網絡 (2011 年),以及第一個有超過 100 層、非常深的前饋神經網絡。

世界欠他一個圖靈獎!LSTM之父回憶深度學習的“奇跡之年”

當然,深度學習只是 AI 的一小部分,主要局限于被動模式識別。我們將其視為通過元學習或 “l(fā)earning to learn 算法”(1987 年發(fā)表) 研究更一般的人工智能的副產品,具有人工好奇心和創(chuàng)造力的系統(tǒng)發(fā)明了自己的問題并設定自己的目標 (1990 年),演化計算 (1987 年) 和 RNN 進化 & 壓縮網絡搜索,在現實的部分可觀測的環(huán)境中的強化學習 (RL) 智能體,通用人工智能,最優(yōu)通用學習機器,如 G?del machine (2003-),對運行在通用計算機上的程序的最優(yōu)搜索,如 RNN,等等。

當然,AI 本身只是一個更宏偉計劃的一部分,它將宇宙從簡單的初始條件推向越來越深不可測的復雜性。最后,即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算的一小部分。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多