楊立昆狠批Sora不是世界模型，生成式路線注定失敗

鄭飛3bbr5o1bk2 2024-02-24 發(fā)布于北京

展開(kāi)全文

楊立昆：Sora不是世界模型，V-JEPA才是。

作者 | 蘇霍伊

編輯 | 趙健

過(guò)去一周，Sora 的光芒有多耀眼，谷歌與 Meta 就有多落寞。

就在 Sora 發(fā)布的同一天，另有兩款重磅產(chǎn)品推出：一是谷歌發(fā)布支持 100 萬(wàn) tokens 上下文的大模型 Gemini 1.5 Pro；二是 Meta 發(fā)布“能夠以人類的理解方式看世界”的視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu) V-JEPA（Video Joint Embedding Predictive Architecture）。

只是由于發(fā)布日期與 Sora “撞車(chē)”，與它們有關(guān)的消息基本都被埋在了鋪天蓋地的 Sora 新聞流里。可以說(shuō)在話題熱度這塊兒，Gemini 1.5 Pro 和 V-JEPA 被 Sora 殺得片甲不留。

如果說(shuō)作為語(yǔ)言模型的 Gemini 1.5 Pro 與 Sora 還不在同維度競(jìng)爭(zhēng)的話，與 Sora 同屬視頻生成模型的 V-JEPA 便是“實(shí)慘”了，發(fā)布的前兩天基本無(wú)人問(wèn)津，甚至連業(yè)內(nèi)都很少關(guān)注到。

Sora 之所以引發(fā)了全世界的關(guān)注，不僅僅在于它是一個(gè)高質(zhì)量的視頻生成模型，更在于 OpenAI 把它定義為一個(gè)“世界模擬器”（world simulators）。

OpenAI 表示：“ Sora 是能夠理解和模擬現(xiàn)實(shí)世界模型的基礎(chǔ)，我們相信這種能力將成為實(shí)現(xiàn) AGI 的重要里程碑?！?/p>

英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 更是直接斷言，“Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎，是一個(gè)可學(xué)習(xí)的模擬器，或世界模型”。

Sora 是世界模型？這讓圖靈獎(jiǎng)獲得者、Meta 首席科學(xué)家 Yann LeCun（楊立昆）坐不住了，LeCun 多次在社交平臺(tái) X 上“狠批” Sora，表示 Sora 的生成式技術(shù)路線注定失敗。

LeCun 顯然出離地憤怒：“我從未預(yù)料到，看到那么多從未對(duì)人工智能或機(jī)器學(xué)習(xí)做出任何貢獻(xiàn)的人，其中一些人在達(dá)克效應(yīng)（Dunning-Kruger effect）上已經(jīng)走得很遠(yuǎn)，卻告訴我我在人工智能和機(jī)器學(xué)習(xí)方面是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的......”

Yann LeCun的X截圖

這場(chǎng)關(guān)于世界模型的巨大爭(zhēng)議，到底是如何發(fā)生的？

1.OpenAI的生成式路線，大佬們?cè)趺纯矗?/h3>

目前，幾乎所有的深度學(xué)習(xí)模型都是建立在 Transformer 架構(gòu)上。但是在追求通用人工智能（AGI）的道路上，存在不同的流派。

OpenAI 是自回歸生成式路線（Auto-regressive models），遵循“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線。從 ChatGPT 到 Sora，都是這一思路的代表性產(chǎn)物。

簡(jiǎn)而言之，Sora 通過(guò)分析視頻來(lái)捕捉現(xiàn)實(shí)世界的動(dòng)態(tài)變化，并利用計(jì)算機(jī)視覺(jué)技術(shù)重現(xiàn)這些變化，創(chuàng)造新的視覺(jué)內(nèi)容。它的學(xué)習(xí)不限于視頻的畫(huà)面和像素，還包括視頻中展示的物理規(guī)律。

Sora 采用了以 Transformer 為骨架的 Diffusion Model（擴(kuò)散模型），其拔群的效果也驗(yàn)證了擴(kuò)展法則（scaling law）與智能涌現(xiàn)（Emergent）依舊成立。

值得一提的是，OpenAI 把 Scale 作為核心價(jià)值觀之一：我們相信規(guī)模——在我們的模型、系統(tǒng)、自身、過(guò)程以及抱負(fù)中——具有魔力。當(dāng)有疑問(wèn)時(shí)，就擴(kuò)大規(guī)模。

但是，LeCun 卻認(rèn)為“自回歸生成模型弱爆了（Auto-Regressive Generative Models suck）”！

他認(rèn)為，自回歸路徑是無(wú)法通往 AGI 的。LeCun 本人不止一次公開(kāi)表達(dá)了對(duì)自回歸生成模型熱潮的批評(píng)：“從現(xiàn)在起 5 年內(nèi)，沒(méi)有哪個(gè)頭腦正常的人會(huì)使用自回歸模型。”

2 月 13 日，在 2024 年世界政府峰會(huì)（World Government Summit）上，LeCun 就談到“他并不看好生成式技術(shù)”。他認(rèn)為“文本處理的方法無(wú)法直接應(yīng)用于視頻”，并順?biāo)浦鄣匦麄饕幌伦约已芯?，“目前為止，唯一看起?lái)可能適用于視頻的技術(shù)，是我們研發(fā)的 JEPA 架構(gòu)”。

幾天后，他再次“狠批” Sora，僅根據(jù)文字提示生成逼真的視頻，并不代表模型理解了物理世界。LeCun 表示：“生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同”；2 月 19 日，他又一次發(fā)文駁斥道：通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi)，就像那些被廣泛拋棄的“通過(guò)合成來(lái)分析”的想法一樣，注定會(huì)失敗。

LeCun 認(rèn)為文本生成之所以可行，是因?yàn)槲谋颈旧硎请x散的，有著有限數(shù)量的符號(hào)。在這種情況下，處理預(yù)測(cè)中的不確定性相對(duì)容易。在高維連續(xù)的感覺(jué)輸入中處理預(yù)測(cè)不確定性基本上是不可能的?！斑@就是為什么針對(duì)感輸入的生成模型注定會(huì)失敗的原因”。

在不看好 Sora 技術(shù)路徑的質(zhì)疑聲中，不只有 LeCun。

Keras 之父 Fran?ois Chollet 也持有相似觀點(diǎn)。他認(rèn)為僅僅通過(guò)讓 AI 觀看視頻是無(wú)法完全學(xué)習(xí)到世界模型的。盡管像 Sora 這樣的視頻生成模型確實(shí)融入了物理模型，問(wèn)題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。

Fran?ois Chollet的X截圖

Chollet 強(qiáng)調(diào)，這些問(wèn)題至關(guān)重要。因?yàn)樗鼈儧Q定了生成圖像的應(yīng)用范圍——是僅限于媒體生產(chǎn)，還是用作現(xiàn)實(shí)世界的可靠模擬。

同時(shí)他還指出，僅僅依靠擬合大量數(shù)據(jù)（例如通過(guò)游戲引擎生成的圖像或視頻）來(lái)期待構(gòu)建出能廣泛適用于現(xiàn)實(shí)世界所有情況的模型是不現(xiàn)實(shí)的。原因在于，現(xiàn)實(shí)世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過(guò)有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。

Artificial Intuition 作者 Carlos E. Perez 則認(rèn)為 Sora 并不是學(xué)會(huì)了物理規(guī)律，“只是看起來(lái)像學(xué)會(huì)了，就像幾年的煙霧模擬一樣。 ”

Carlos E. Perez的X截圖

知名 AI 學(xué)者、Meta AI 研究科學(xué)家田淵棟也表示，關(guān)于 Sora 是否有潛力學(xué)到精確物理（當(dāng)然現(xiàn)在還沒(méi)有）的本質(zhì)在是：為什么像“預(yù)測(cè)下一個(gè) token ”或“重建”這樣簡(jiǎn)單的思路會(huì)產(chǎn)生如此豐富的表示？

Yuandong Tian 的 X 截圖

最初，世界模型的概念源于人類對(duì)理解和模擬現(xiàn)實(shí)世界的追求。

它與動(dòng)物（包括人類）如何理解和預(yù)測(cè)周?chē)h(huán)境的研究相關(guān)，這些研究起源于認(rèn)知科學(xué)和神經(jīng)科學(xué)。隨著時(shí)間的推移，這一思想被引入到計(jì)算機(jī)科學(xué)、特別是人工智能領(lǐng)域，成為研究者設(shè)計(jì)智能系統(tǒng)時(shí)的一個(gè)重要考慮因素。

在人工智能領(lǐng)域，所謂的世界模型，是指機(jī)器對(duì)世界運(yùn)作方式的理解和內(nèi)部表示，也可以理解為抽象概念和感受的集合。它能幫助 AI 系統(tǒng)理解、學(xué)習(xí)和控制環(huán)境中發(fā)生的事情。因此世界模型也可以看作是 AI 系統(tǒng)的“心智模型”，是 AI 系統(tǒng)對(duì)自身和外部世界的認(rèn)知和期望。

比如，玩家正在玩一個(gè)賽車(chē)游戲，世界模型可以協(xié)助玩家模擬賽車(chē)預(yù)測(cè)不同駕駛策略的結(jié)果，從而選擇最佳的行駛路線；或者在現(xiàn)實(shí)中，一個(gè)機(jī)器人可以使用世界模型來(lái)預(yù)測(cè)移動(dòng)一件物體可能引起的連鎖反應(yīng)，從而做出更安全、更有效的決策。

世界模型對(duì)于發(fā)展通用人工智能至關(guān)重要，因?yàn)樗粌H提高了 AI 的抽象和預(yù)測(cè)能力，使其能夠理解復(fù)雜環(huán)境并規(guī)劃未來(lái)行動(dòng)，還促進(jìn)了 AI 的創(chuàng)造性問(wèn)題解決和社會(huì)互動(dòng)能力。通過(guò)內(nèi)部模擬和推理，世界模型使 AI 能夠適應(yīng)新環(huán)境、有效合作以及自主學(xué)習(xí)，從而推動(dòng) AI 技術(shù)向更高層次的智能進(jìn)化。

2.Meta 力推非生成式世界模型

既然 LeCun 說(shuō)生成式路線的 Sora 不行，那么 Meta 發(fā)布的非生成式路線的 V-JEPA 水平如何？

去年，LeCun 提出了一個(gè)全新思路，希望“打造接近人類水平的 AI”。他指出，構(gòu)建能夠?qū)W習(xí)世界模型或許就是關(guān)鍵。

通過(guò)這種方式，機(jī)器不僅能更迅速地學(xué)習(xí)和規(guī)劃解決復(fù)雜問(wèn)題的策略，而且也能更有效地適應(yīng)新穎或未知的環(huán)境。并且 LeCun 還斷言：“掌握了如何學(xué)習(xí)和應(yīng)用這種世界模型的 AI ，將能夠真正地接近人類水平的智能”。

動(dòng)物和人類的大腦運(yùn)行著一種模擬世界的模型，這種模型在嬰兒期通過(guò)觀察世界就已經(jīng)學(xué)會(huì)，是動(dòng)物（包括人類）對(duì)周?chē)l(fā)生情況做出良好猜測(cè)的方法。

LeCun 將這種直覺(jué)性的推理稱為“常識(shí)”（包含我們對(duì)簡(jiǎn)單物理學(xué)的掌握）。他根據(jù)大腦運(yùn)行機(jī)制，提出了一個(gè)端到端的仿生架構(gòu)，包含 6 個(gè)核心模塊：配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊。

Yann LeCun的自主智能系統(tǒng)的架構(gòu)示意圖

其中世界模型模塊是最復(fù)雜的部分。它主要承擔(dān)兩個(gè)關(guān)鍵任務(wù)：一是補(bǔ)充感知模塊未能捕獲的信息；二是對(duì)世界未來(lái)狀態(tài)進(jìn)行預(yù)測(cè)，這不僅包括世界自然發(fā)展的趨勢(shì)，還有參與者行為可能引起的變化。

簡(jiǎn)而言之，世界模型就像是一個(gè)現(xiàn)實(shí)世界的虛擬模擬器，它需要能夠應(yīng)對(duì)各種不確定性，做出多種可能的預(yù)測(cè)。

基于該理念設(shè)計(jì)的 V-JEPA 是一種“非生成模型”，通過(guò)預(yù)測(cè)抽象表示空間中視頻的缺失或屏蔽部分來(lái)進(jìn)行學(xué)習(xí)。

這與圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)（I-JEPA）相似，I-JEPA 通過(guò)比較圖像的抽象表示來(lái)進(jìn)行學(xué)習(xí)，而不是直接對(duì)比“像素”。與嘗試重建每個(gè)缺失像素的生成式方法不同，V-JEPA 摒棄了預(yù)測(cè)那些難以捉摸的信息，這種方式使其在訓(xùn)練和樣本效率上實(shí)現(xiàn)了1.5到6倍的提高。

V-JEPA 采用了自我監(jiān)督的學(xué)習(xí)方法，就好比一個(gè)初生兒，通過(guò)觀察來(lái)理解世界，建立自己的認(rèn)知。因此，Meta 完全使用未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。標(biāo)簽僅用于在預(yù)訓(xùn)練后使模型適應(yīng)特定任務(wù)。Meta 表示，這種類型的架構(gòu)比以前的模型更有效，無(wú)論是在所需的標(biāo)記示例數(shù)量方面，還是在學(xué)習(xí)未標(biāo)記數(shù)據(jù)方面投入的總工作量方面。

V-JEPA模型的訓(xùn)練過(guò)程是，先遮蔽掉視頻中的大部分內(nèi)容，只向模型展示一小部分上下文，然后要求預(yù)測(cè)器填補(bǔ)缺失的部分——不是以實(shí)際像素的形式，而是在這個(gè)表示空間中以更抽象的描述來(lái)填補(bǔ)。

V-JEPA 通過(guò)預(yù)測(cè)學(xué)習(xí)的潛在空間中的屏蔽時(shí)空區(qū)域來(lái)訓(xùn)練視覺(jué)編碼器

這個(gè)過(guò)程涉及到兩個(gè)核心步驟，一是掩蔽技術(shù)，二是高效預(yù)測(cè)。

V-JEPA 并未接受過(guò)理解某一特定類型操作的訓(xùn)練。相反，它對(duì)一系列視頻進(jìn)行了自我監(jiān)督訓(xùn)練，并了解了許多有關(guān)世界如何運(yùn)作的知識(shí)。Meta 團(tuán)隊(duì)仔細(xì)考慮了屏蔽策略——如果你不遮擋視頻的大片區(qū)域，而是到處隨機(jī)采樣補(bǔ)丁，那么任務(wù)就會(huì)變得過(guò)于簡(jiǎn)單，并且模型不會(huì)學(xué)到任何關(guān)于世界的特別復(fù)雜的東西。

在抽象表示空間進(jìn)行預(yù)測(cè)至關(guān)重要，因?yàn)檫@使得模型能夠集中于視頻中更高層次的概念信息，而非那些對(duì)大多數(shù)任務(wù)來(lái)說(shuō)并不重要的細(xì)節(jié)。畢竟，當(dāng)視頻展示一棵樹(shù)時(shí)，觀看者通常不會(huì)對(duì)每片葉子的細(xì)微動(dòng)作感興趣。

Meta 表示，V-JEPA 是第一個(gè)擅長(zhǎng)“凍結(jié)評(píng)估”的視頻模型，只要在編碼器和預(yù)測(cè)器上進(jìn)行所有自監(jiān)督預(yù)訓(xùn)練。當(dāng)想讓模型學(xué)習(xí)一項(xiàng)新技能時(shí)，只需訓(xùn)練一個(gè)小型輕量級(jí)專業(yè)層或在此之上訓(xùn)練一個(gè)小型網(wǎng)絡(luò)，這是非常高效和快速的。

V-JEPA 中的“V”代表“視頻”，它只是一個(gè)關(guān)于感知的視頻模型。但 Meta 表示，正在仔細(xì)考慮將音頻與視覺(jué)效果結(jié)合起來(lái)，進(jìn)一步構(gòu)建世界模型。

現(xiàn)在，Meta已經(jīng)將V-JEPA代碼開(kāi)源，供用戶下載使用。而Sora仍然沒(méi)有向普通用戶開(kāi)放。

不論 LeCun 是真心覺(jué)得生成式路線無(wú)法實(shí)現(xiàn)世界模型，還是為了讓 V-JEPA 在與 Sora 的競(jìng)爭(zhēng)中爭(zhēng)取用戶的關(guān)注度，Meta 都在用開(kāi)源的方式真正實(shí)現(xiàn)“open 的 AI”。

這一次，V-JEPA 能否像去年的 LLama 一樣，利用開(kāi)源模式在大模型的競(jìng)賽中占得先機(jī)？

*參考資料：

《Meta發(fā)布V-JEPA,世界模型更進(jìn)一步，這是通往通用人工智能（AGI）之路嗎？》，作者：求索，知乎。

（封面圖來(lái)源：Meta官網(wǎng)）

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：鄭飛3bbr5o1bk2 > 《2024》

舉報(bào)/認(rèn)領(lǐng)