圖靈獎獲得者Yann LeCun ：學(xué)習(xí)“世界模型”的能力是構(gòu)建人類級AI的關(guān)鍵所在人類與任務(wù)無關(guān)的、無監(jiān)督的方式學(xué)習(xí)關(guān)于世界如何運作

看見就非常 2022-05-07 發(fā)布于江西省

展開全文

本文最初發(fā)布于 Meta AI 博客，由 InfoQ 中文站翻譯并分享。

盡管人工智能研究最近取得了顯著進(jìn)展，但我們離創(chuàng)造出像人一樣善于思考和學(xué)習(xí)的機器還很遠(yuǎn)。正如 Meta AI 首席人工智能科學(xué)家 Yann LeCun 所指出的那樣，一個從未摸過方向盤的青少年可以在大約 20 個小時內(nèi)學(xué)會開車，而當(dāng)今最好的自動駕駛系統(tǒng)也需要數(shù)百萬甚至數(shù)十億帶標(biāo)簽的訓(xùn)練數(shù)據(jù)和數(shù)百萬次虛擬環(huán)境中的強化學(xué)習(xí)試驗。即便如此，它們駕駛汽車也還是不如人類可靠。

構(gòu)建接近人類水平的人工智能需要什么？僅僅是更多的數(shù)據(jù)和更大的人工智能模型嗎？

作為 2022 年 2 月 23 日 Meta AI 實驗室內(nèi)部活動的一部分，LeCun 勾勒了一個構(gòu)建人類級 AI 的愿景。LeCun 提出，學(xué)習(xí)“世界模型”的能力——關(guān)于世界如何運作的內(nèi)部模型——可能是關(guān)鍵所在。

Meta AI 在此簡要分享下 LeCun 的一些想法，包括他對模塊化、可配置的自主智能架構(gòu)的建議，以及人工智能研究界為構(gòu)建這樣一個系統(tǒng)必須解決的關(guān)鍵挑戰(zhàn)。我們通常在研究完成后，通過發(fā)表論文、代碼和數(shù)據(jù)集以及博客文章來分享我們的研究成果。但為了與 Meta AI 開放科學(xué)方法保持一致，我們借此機會介紹下我們的研究愿景和思路，希望激發(fā)人工智能研究人員之間的討論與合作。一個簡單的事實是，我們需要共同合作來解決這些極具挑戰(zhàn)性的、令人興奮的問題。

我們計劃在即將發(fā)布的建議書中分享有關(guān) LeCun 愿景的更多細(xì)節(jié)。

能夠模擬世界運作方式的人工智能

“人類和非人類動物似乎能夠通過觀察和少量難以理解的互動，以一種與任務(wù)無關(guān)的、無監(jiān)督的方式學(xué)習(xí)關(guān)于世界如何運作的大量背景知識，“LeCun 說?！备鶕?jù)推測，這樣積累的知識可能就構(gòu)成了我們通常所說的常識的基礎(chǔ)?！?/p>

而常識可以看作是世界模型的集合，可以解釋什么可能，什么合理，什么不可能。

這使得人類能夠在不熟悉的情況下有效地進(jìn)行計劃。例如，那個青少年司機可能以前沒有在雪地上開過車，但他（很可能）知道雪地會很滑，如果開得太猛，車就會打滑。

常識性知識使動物不僅能夠預(yù)測未來的結(jié)果，而且能夠填補缺失的信息，無論是時間上的還是空間上的。當(dāng)司機聽到附近有金屬撞擊的聲音時，馬上就知道發(fā)生了事故——即使沒有看到相關(guān)的車輛。

人類、動物和智能系統(tǒng)使用世界模型的想法可以追溯到幾十年前的心理學(xué)和工程領(lǐng)域，如控制與機器人學(xué)。LeCun 提出，當(dāng)今人工智能最重要的挑戰(zhàn)之一是設(shè)計學(xué)習(xí)范式和架構(gòu)，使機器能夠以自監(jiān)督的方式學(xué)習(xí)世界模型，然后使用這些模型進(jìn)行預(yù)測、推理和規(guī)劃。他在綱要中重新組合了不同學(xué)科提出的觀點，如認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最優(yōu)控制、強化學(xué)習(xí)和“傳統(tǒng)”人工智能，并將它們與機器學(xué)習(xí)的新概念相結(jié)合，如自監(jiān)督學(xué)習(xí)和聯(lián)合嵌入架構(gòu)。

自主智能架構(gòu)

LeCun 提出了一個自主智能的架構(gòu)，它由六個獨立的模塊組成。每個模塊都是可微分的，因為它可以很容易地計算出一些目標(biāo)函數(shù)相對于其自身輸入的梯度估計，并將梯度信息傳播給上游模塊。

自主智能的系統(tǒng)架構(gòu)。配置器從其他模塊獲得輸入，但為了簡化圖表，我們省略了這些箭頭。

配置器模塊負(fù)責(zé)執(zhí)行控制。給定一個要執(zhí)行的任務(wù)，它會針對這項任務(wù)預(yù)先配置感知模塊、世界模型、成本和行為者，可能是通過調(diào)整這些模塊的參數(shù)。
感知模塊接收來自傳感器的信號并估計世界當(dāng)前的狀態(tài)。對于一個特定的任務(wù)，感知到的世界狀態(tài)只有一小部分是相關(guān)和有用的。配置器模塊預(yù)先通知感知系統(tǒng)，從感知到的狀態(tài)中提取與當(dāng)前任務(wù)相關(guān)的信息。
世界模型模塊是這個架構(gòu)中最復(fù)雜的部分。它有兩個作用：（1）評估感知未能提供的關(guān)于世界狀態(tài)的缺失信息；（2）合理預(yù)測世界的未來狀態(tài)。世界模型可以預(yù)測世界的自然演變，也可以預(yù)測由行為者模塊采取的一系列行動所產(chǎn)生的未來世界狀態(tài)。世界模型就像是一個與當(dāng)前任務(wù)相關(guān)的這部分世界的模擬器。由于世界充滿了不確定性，該模型必須能夠代表多種可能的預(yù)測。司機可能會在靠近十字路口時放慢速度，以防另一輛靠近十字路口的車沒有停在停車標(biāo)志前。
成本模塊會計算輸出一個標(biāo)量，預(yù)測代理的不適程度。它由兩個子模塊組成：內(nèi)在成本模塊，這是固有的，不可改變（不可訓(xùn)練），它負(fù)責(zé)計算即時不適（如對代理的損害，違反硬編碼的行為約束等）；批評者模塊是一個可訓(xùn)練的模塊，負(fù)責(zé)預(yù)測內(nèi)在成本的未來值。代理的最終目標(biāo)是長期保持內(nèi)在成本最小化。LeCun 說：“這是基本的行為驅(qū)動和內(nèi)在動機?！耙虼?，它將考慮到內(nèi)在成本，如不浪費能量以及特定于當(dāng)前任務(wù)的成本。"因為成本模塊是可微分的，所以成本的梯度可以通過其他模塊反向傳播，用于規(guī)劃、推理或?qū)W習(xí)。”
行為者模塊計算行動序列的建議?！毙袨檎呖梢哉业揭粋€最佳行動序列，使預(yù)估的未來成本最小，并輸出最佳序列中的第一個行動，其方式類似于經(jīng)典的最優(yōu)控制，“LeCun 說。
短期記憶模塊記錄了當(dāng)前和預(yù)測的世界狀態(tài)，以及相關(guān)成本。

世界模型架構(gòu)和自監(jiān)督訓(xùn)練

該架構(gòu)的核心是預(yù)測性世界模型。構(gòu)建這樣一個模型的關(guān)鍵挑戰(zhàn)是如何使它能夠代表多種多樣的合理預(yù)測?，F(xiàn)實世界并不是完全可預(yù)測的：一個特定的情況可能有許多演變方式，而且，一個情況有許多細(xì)節(jié)與當(dāng)前任務(wù)無關(guān)。當(dāng)我開車時，我可能需要預(yù)測周圍的汽車會做什么，但我不需要預(yù)測道旁樹上個別樹葉的準(zhǔn)確位置。世界模型怎么樣才能習(xí)得世界的抽象表示，保留重要的細(xì)節(jié)信息而忽略不相關(guān)的，并在抽象表示的空間里進(jìn)行預(yù)測？

聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）是解決方案的一個關(guān)鍵因素。JEPA 可以捕獲兩個輸入 x 和 y 之間的依賴關(guān)系。例如，x 可能是一個視頻片段，而 y 是該視頻的下一個片段。將 x 和 y 輸入可訓(xùn)練的編碼器，提取出它們的抽象表示 sx 和 sy。訓(xùn)練一個預(yù)測器模塊，它可以從 sx 預(yù)測 sy。預(yù)測器可以使用一個潛在變量 z 來表示 sy 中存在而 sx 中不存在的信息。JEPA 用兩種方式處理預(yù)測的不確定性：（1）編碼器可以選擇放棄 y 中難以預(yù)測的信息；（2）潛變量 z 在一個集合中取值時，預(yù)測也會在一組可信的預(yù)測中變化。

我們?nèi)绾斡?xùn)練 JEPA？直到最近，還只有對比法一種方法，包括顯示 x 和 y 兼容的例子，以及許多 x 和 y 不兼容的例子。但當(dāng)向量表示維數(shù)很高時，就很不可行了。過去兩年里出現(xiàn)了另一種訓(xùn)練策略：正則化方法。當(dāng)應(yīng)用于 JEPA 時，該方法使用四個標(biāo)準(zhǔn)：

使 x 的表示包含 x 的最大信息量；
使 y 的表示包含 y 的最大信息量；
能從 x 的表示最大限度地預(yù)測 y 的表示；
使預(yù)測器盡可能少地使用潛在變量來表示預(yù)測的不確定性。這些標(biāo)準(zhǔn)可以通過各種方式轉(zhuǎn)化為可微分的成本函數(shù)。一種方法是VICReg方法，其中 VICReg 是變量（Variance）、不變性（Invariance）、協(xié)方差正則化（Covariance Regularization）的縮寫。VICReg 是通過保持 x 和 y 的分量的方差在某個閾值之上，并使這些分量盡可能地相互獨立，來最大化 x 和 y 的表示包含的信息量。同時，該模型試圖使 y 的表示可以從 x 的表示預(yù)測出來。此外，通過離散化、低維化、稀疏化或噪聲化，使?jié)撟兞康男畔⒘孔钚』?/p>

JEPA 之美在于它自然生成了輸入的信息性抽象表示，去掉了不相關(guān)的細(xì)節(jié)，并且可以用它來進(jìn)行預(yù)測。這使得 JEPA 可以一層層疊加，習(xí)得更高層次的抽象表示，用于進(jìn)行更長期的預(yù)測。例如有一個場景，在比較高的層次上可以描述為“一個廚師正在做法式薄餅”。我們可以預(yù)測，廚師會去拿面粉、牛奶和雞蛋；混合原材料；把面糊舀到鍋里；讓面糊炸開；翻轉(zhuǎn)可麗餅；然后重復(fù)上述過程。在較低的層次上，倒勺子包括舀一些面糊并在鍋里攤開。再往下，可以精確到廚師的手每一毫秒的準(zhǔn)確軌跡。在手的軌跡這么低的層次上，我們的世界模型只能做出短期的準(zhǔn)確預(yù)測。但在更高的抽象層次上，它可以進(jìn)行長期預(yù)測。

分層 JEPA 可用于在多個抽象層次和多個時間尺度上進(jìn)行預(yù)測。它如何訓(xùn)練呢？主要是通過被動觀察，少數(shù)時候通過互動。

嬰兒在出生后的頭幾個月里主要是通過觀察來了解世界的運作。她知道世界是三維的，一些物體在另一些物體的前面，當(dāng)一個物體被遮擋時，它仍然存在。最終，在 9 個月大的時候，嬰兒學(xué)會了直觀的物理學(xué)知識，例如，沒有支撐的物體在重力作用下墜落。

希望分層 JEPA 可以通過觀看視頻和與環(huán)境互動來學(xué)習(xí)世界的運作方式。通過訓(xùn)練自己預(yù)測視頻中會發(fā)生什么，來生成世界的分層表示。通過在世界中采取行動并觀察結(jié)果，世界模型將學(xué)會預(yù)測行動后果，使它能夠進(jìn)行推理和計劃。

感知-行動過程

通過適當(dāng)?shù)挠?xùn)練將分層 JEPA 變成世界模型，代理可以對復(fù)雜的行動進(jìn)行分層規(guī)劃，將復(fù)雜的任務(wù)分解成一系列不太復(fù)雜、不太抽象的子任務(wù)，一直到效應(yīng)器上的底層行動為止。

典型的感知-行動過程是這樣的。該圖說明了兩層結(jié)構(gòu)的情況。感知模塊提取世界狀態(tài)的層次表示（圖中 s1[0]=Enc1(x)，s2[0]=Enc2(s[0])）。然后，根據(jù)第二層行為者提出的抽象行動序列，多次應(yīng)用第二層預(yù)測器預(yù)測未來狀態(tài)。行動者會優(yōu)化第二層行動序列，使總成本最小化（圖中的 C(s2[4])）。這個過程類似于最優(yōu)控制中的模型預(yù)測控制。這個過程會多次對二級潛變量進(jìn)行重復(fù)繪制，可能產(chǎn)生不同的高層場景。由此產(chǎn)生的高層行動并不構(gòu)成真正的行動，而只是定義了低層狀態(tài)序列必須滿足的約束條件（例如，各要素是否正確混合？）。它們構(gòu)成了真正的子目標(biāo)。整個過程在較低的層次上重復(fù)：運行低層預(yù)測器，優(yōu)化低層行動序列以最小化來自上層的中間成本，并重復(fù)這一過程對低層潛變量進(jìn)行多次繪制。一旦這個過程完成，代理就將第一個低層行動輸出給效應(yīng)器，整個過程可以重復(fù)進(jìn)行。

如果我們成功構(gòu)建了這樣一個模型，所有模塊都是可微分的，那么整個行動優(yōu)化過程就可以用基于梯度的方法進(jìn)行。

人工智能向人類級智能邁進(jìn)

這樣一篇簡短的博文無法聊透 LeCun 的愿景，前方還有許多困難的挑戰(zhàn)。其中最有趣也最困難的是將世界模型的架構(gòu)和訓(xùn)練過程實例化。事實上，可以說，訓(xùn)練世界模型是未來幾十年人工智能真正有所進(jìn)展需要克服的主要挑戰(zhàn)。

但架構(gòu)的許多其他方面仍有待定義，包括如何精確地訓(xùn)練批評者，如何構(gòu)建和訓(xùn)練配置器，以及如何使用短期記憶來跟蹤世界狀態(tài)并存儲世界狀態(tài)的歷史、行動和相關(guān)的內(nèi)在成本來優(yōu)化批評者。

LeCun 和 Meta AI 的其他研究人員期待在未來幾個月甚至幾年內(nèi)探索這些問題，并與該領(lǐng)域的其他人交流想法及相互學(xué)習(xí)。創(chuàng)造能夠像人類一樣有效學(xué)習(xí)和理解的機器需要長期的科學(xué)努力——而且不能保證成功。但我們相信，基礎(chǔ)研究將繼續(xù)加深我們對思維和機器的理解，并將使每個人工智能用戶從中受益。

查看英文原文：

https://ai./blog/yann-lecun-advances-in-ai-research?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE4Mjg0NTEsImZpbGVHVUlEIjoiZTFBejRPTzlnOFVkUlZxVyIsImlhdCI6MTY1MTgyODE1MSwidXNlcklkIjoyMDQxOTA5MH0.CjoZETnyH4qKFZfOXMw9oBEBklUtHQEqGky9ZVtVJQ4