![]() 楊立昆:Sora不是世界模型,V-JEPA才是。 作者 | 蘇霍伊 編輯 | 趙健 過(guò)去一周,Sora 的光芒有多耀眼,谷歌與 Meta 就有多落寞。 就在 Sora 發(fā)布的同一天,另有兩款重磅產(chǎn)品推出:一是谷歌發(fā)布支持 100 萬(wàn) tokens 上下文的大模型 Gemini 1.5 Pro;二是 Meta 發(fā)布“能夠以人類的理解方式看世界”的視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu) V-JEPA(Video Joint Embedding Predictive Architecture)。 只是由于發(fā)布日期與 Sora “撞車(chē)”,與它們有關(guān)的消息基本都被埋在了鋪天蓋地的 Sora 新聞流里。可以說(shuō)在話題熱度這塊兒,Gemini 1.5 Pro 和 V-JEPA 被 Sora 殺得片甲不留。 如果說(shuō)作為語(yǔ)言模型的 Gemini 1.5 Pro 與 Sora 還不在同維度競(jìng)爭(zhēng)的話,與 Sora 同屬視頻生成模型的 V-JEPA 便是“實(shí)慘”了,發(fā)布的前兩天基本無(wú)人問(wèn)津,甚至連業(yè)內(nèi)都很少關(guān)注到。 Sora 之所以引發(fā)了全世界的關(guān)注,不僅僅在于它是一個(gè)高質(zhì)量的視頻生成模型,更在于 OpenAI 把它定義為一個(gè)“世界模擬器”(world simulators)。 OpenAI 表示:“ Sora 是能夠理解和模擬現(xiàn)實(shí)世界模型的基礎(chǔ),我們相信這種能力將成為實(shí)現(xiàn) AGI 的重要里程碑?!?/p> 英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 更是直接斷言,“Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,是一個(gè)可學(xué)習(xí)的模擬器,或世界模型”。 Sora 是世界模型?這讓圖靈獎(jiǎng)獲得者、Meta 首席科學(xué)家 Yann LeCun(楊立昆)坐不住了,LeCun 多次在社交平臺(tái) X 上“狠批” Sora,表示 Sora 的生成式技術(shù)路線注定失敗。 LeCun 顯然出離地憤怒:“我從未預(yù)料到,看到那么多從未對(duì)人工智能或機(jī)器學(xué)習(xí)做出任何貢獻(xiàn)的人,其中一些人在達(dá)克效應(yīng)(Dunning-Kruger effect)上已經(jīng)走得很遠(yuǎn),卻告訴我我在人工智能和機(jī)器學(xué)習(xí)方面是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的......” ![]() 這場(chǎng)關(guān)于世界模型的巨大爭(zhēng)議,到底是如何發(fā)生的? ![]() 1.OpenAI的生成式路線,大佬們?cè)趺纯矗?/h3>目前,幾乎所有的深度學(xué)習(xí)模型都是建立在 Transformer 架構(gòu)上。但是在追求通用人工智能(AGI)的道路上,存在不同的流派。 OpenAI 是自回歸生成式路線(Auto-regressive models),遵循“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線。從 ChatGPT 到 Sora,都是這一思路的代表性產(chǎn)物。 簡(jiǎn)而言之,Sora 通過(guò)分析視頻來(lái)捕捉現(xiàn)實(shí)世界的動(dòng)態(tài)變化,并利用計(jì)算機(jī)視覺(jué)技術(shù)重現(xiàn)這些變化,創(chuàng)造新的視覺(jué)內(nèi)容。它的學(xué)習(xí)不限于視頻的畫(huà)面和像素,還包括視頻中展示的物理規(guī)律。 Sora 采用了以 Transformer 為骨架的 Diffusion Model(擴(kuò)散模型),其拔群的效果也驗(yàn)證了擴(kuò)展法則(scaling law)與智能涌現(xiàn)(Emergent)依舊成立。 值得一提的是,OpenAI 把 Scale 作為核心價(jià)值觀之一:我們相信規(guī)模——在我們的模型、系統(tǒng)、自身、過(guò)程以及抱負(fù)中——具有魔力。當(dāng)有疑問(wèn)時(shí),就擴(kuò)大規(guī)模。 ![]() 但是,LeCun 卻認(rèn)為“自回歸生成模型弱爆了(Auto-Regressive Generative Models suck)”! 他認(rèn)為,自回歸路徑是無(wú)法通往 AGI 的。LeCun 本人不止一次公開(kāi)表達(dá)了對(duì)自回歸生成模型熱潮的批評(píng):“從現(xiàn)在起 5 年內(nèi),沒(méi)有哪個(gè)頭腦正常的人會(huì)使用自回歸模型。” 2 月 13 日,在 2024 年世界政府峰會(huì)(World Government Summit)上,LeCun 就談到“他并不看好生成式技術(shù)”。他認(rèn)為“文本處理的方法無(wú)法直接應(yīng)用于視頻”,并順?biāo)浦鄣匦麄饕幌伦约已芯?,“目前為止,唯一看起?lái)可能適用于視頻的技術(shù),是我們研發(fā)的 JEPA 架構(gòu)”。 幾天后,他再次“狠批” Sora,僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界。LeCun 表示:“生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同”;2 月 19 日,他又一次發(fā)文駁斥道:通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi),就像那些被廣泛拋棄的“通過(guò)合成來(lái)分析”的想法一樣,注定會(huì)失敗。 LeCun 認(rèn)為文本生成之所以可行,是因?yàn)槲谋颈旧硎请x散的,有著有限數(shù)量的符號(hào)。在這種情況下,處理預(yù)測(cè)中的不確定性相對(duì)容易。在高維連續(xù)的感覺(jué)輸入中處理預(yù)測(cè)不確定性基本上是不可能的?!斑@就是為什么針對(duì)感輸入的生成模型注定會(huì)失敗的原因”。 在不看好 Sora 技術(shù)路徑的質(zhì)疑聲中,不只有 LeCun。 Keras 之父 Fran?ois Chollet 也持有相似觀點(diǎn)。他認(rèn)為僅僅通過(guò)讓 AI 觀看視頻是無(wú)法完全學(xué)習(xí)到世界模型的。盡管像 Sora 這樣的視頻生成模型確實(shí)融入了物理模型,問(wèn)題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。 ![]() Chollet 強(qiáng)調(diào),這些問(wèn)題至關(guān)重要。因?yàn)樗鼈儧Q定了生成圖像的應(yīng)用范圍——是僅限于媒體生產(chǎn),還是用作現(xiàn)實(shí)世界的可靠模擬。 同時(shí)他還指出,僅僅依靠擬合大量數(shù)據(jù)(例如通過(guò)游戲引擎生成的圖像或視頻)來(lái)期待構(gòu)建出能廣泛適用于現(xiàn)實(shí)世界所有情況的模型是不現(xiàn)實(shí)的。原因在于,現(xiàn)實(shí)世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過(guò)有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。 Artificial Intuition 作者 Carlos E. Perez 則認(rèn)為 Sora 并不是學(xué)會(huì)了物理規(guī)律,“只是看起來(lái)像學(xué)會(huì)了,就像幾年的煙霧模擬一樣。 ” ![]() 知名 AI 學(xué)者、Meta AI 研究科學(xué)家田淵棟也表示,關(guān)于 Sora 是否有潛力學(xué)到精確物理(當(dāng)然現(xiàn)在還沒(méi)有)的本質(zhì)在是:為什么像“預(yù)測(cè)下一個(gè) token ”或“重建”這樣簡(jiǎn)單的思路會(huì)產(chǎn)生如此豐富的表示? ![]() 最初,世界模型的概念源于人類對(duì)理解和模擬現(xiàn)實(shí)世界的追求。 它與動(dòng)物(包括人類)如何理解和預(yù)測(cè)周?chē)h(huán)境的研究相關(guān),這些研究起源于認(rèn)知科學(xué)和神經(jīng)科學(xué)。隨著時(shí)間的推移,這一思想被引入到計(jì)算機(jī)科學(xué)、特別是人工智能領(lǐng)域,成為研究者設(shè)計(jì)智能系統(tǒng)時(shí)的一個(gè)重要考慮因素。 在人工智能領(lǐng)域,所謂的世界模型,是指機(jī)器對(duì)世界運(yùn)作方式的理解和內(nèi)部表示,也可以理解為抽象概念和感受的集合。它能幫助 AI 系統(tǒng)理解、學(xué)習(xí)和控制環(huán)境中發(fā)生的事情。因此世界模型也可以看作是 AI 系統(tǒng)的“心智模型”,是 AI 系統(tǒng)對(duì)自身和外部世界的認(rèn)知和期望。 比如,玩家正在玩一個(gè)賽車(chē)游戲,世界模型可以協(xié)助玩家模擬賽車(chē)預(yù)測(cè)不同駕駛策略的結(jié)果,從而選擇最佳的行駛路線;或者在現(xiàn)實(shí)中,一個(gè)機(jī)器人可以使用世界模型來(lái)預(yù)測(cè)移動(dòng)一件物體可能引起的連鎖反應(yīng),從而做出更安全、更有效的決策。 世界模型對(duì)于發(fā)展通用人工智能至關(guān)重要,因?yàn)樗粌H提高了 AI 的抽象和預(yù)測(cè)能力,使其能夠理解復(fù)雜環(huán)境并規(guī)劃未來(lái)行動(dòng),還促進(jìn)了 AI 的創(chuàng)造性問(wèn)題解決和社會(huì)互動(dòng)能力。通過(guò)內(nèi)部模擬和推理,世界模型使 AI 能夠適應(yīng)新環(huán)境、有效合作以及自主學(xué)習(xí),從而推動(dòng) AI 技術(shù)向更高層次的智能進(jìn)化。 ![]() 2.Meta 力推非生成式世界模型既然 LeCun 說(shuō)生成式路線的 Sora 不行,那么 Meta 發(fā)布的非生成式路線的 V-JEPA 水平如何? 去年,LeCun 提出了一個(gè)全新思路,希望“打造接近人類水平的 AI”。他指出,構(gòu)建能夠?qū)W習(xí)世界模型或許就是關(guān)鍵。 通過(guò)這種方式,機(jī)器不僅能更迅速地學(xué)習(xí)和規(guī)劃解決復(fù)雜問(wèn)題的策略,而且也能更有效地適應(yīng)新穎或未知的環(huán)境。并且 LeCun 還斷言:“掌握了如何學(xué)習(xí)和應(yīng)用這種世界模型的 AI ,將能夠真正地接近人類水平的智能”。 動(dòng)物和人類的大腦運(yùn)行著一種模擬世界的模型,這種模型在嬰兒期通過(guò)觀察世界就已經(jīng)學(xué)會(huì),是動(dòng)物(包括人類)對(duì)周?chē)l(fā)生情況做出良好猜測(cè)的方法。 LeCun 將這種直覺(jué)性的推理稱為“常識(shí)”(包含我們對(duì)簡(jiǎn)單物理學(xué)的掌握)。他根據(jù)大腦運(yùn)行機(jī)制,提出了一個(gè)端到端的仿生架構(gòu),包含 6 個(gè)核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊。 ![]() 其中世界模型模塊是最復(fù)雜的部分。它主要承擔(dān)兩個(gè)關(guān)鍵任務(wù):一是補(bǔ)充感知模塊未能捕獲的信息;二是對(duì)世界未來(lái)狀態(tài)進(jìn)行預(yù)測(cè),這不僅包括世界自然發(fā)展的趨勢(shì),還有參與者行為可能引起的變化。 簡(jiǎn)而言之,世界模型就像是一個(gè)現(xiàn)實(shí)世界的虛擬模擬器,它需要能夠應(yīng)對(duì)各種不確定性,做出多種可能的預(yù)測(cè)。 基于該理念設(shè)計(jì)的 V-JEPA 是一種“非生成模型”,通過(guò)預(yù)測(cè)抽象表示空間中視頻的缺失或屏蔽部分來(lái)進(jìn)行學(xué)習(xí)。 這與圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)(I-JEPA)相似,I-JEPA 通過(guò)比較圖像的抽象表示來(lái)進(jìn)行學(xué)習(xí),而不是直接對(duì)比“像素”。與嘗試重建每個(gè)缺失像素的生成式方法不同,V-JEPA 摒棄了預(yù)測(cè)那些難以捉摸的信息,這種方式使其在訓(xùn)練和樣本效率上實(shí)現(xiàn)了1.5到6倍的提高。 V-JEPA 采用了自我監(jiān)督的學(xué)習(xí)方法,就好比一個(gè)初生兒,通過(guò)觀察來(lái)理解世界,建立自己的認(rèn)知。因此,Meta 完全使用未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。標(biāo)簽僅用于在預(yù)訓(xùn)練后使模型適應(yīng)特定任務(wù)。Meta 表示,這種類型的架構(gòu)比以前的模型更有效,無(wú)論是在所需的標(biāo)記示例數(shù)量方面,還是在學(xué)習(xí)未標(biāo)記數(shù)據(jù)方面投入的總工作量方面。 V-JEPA模型的訓(xùn)練過(guò)程是,先遮蔽掉視頻中的大部分內(nèi)容,只向模型展示一小部分上下文,然后要求預(yù)測(cè)器填補(bǔ)缺失的部分——不是以實(shí)際像素的形式,而是在這個(gè)表示空間中以更抽象的描述來(lái)填補(bǔ)。 ![]() 這個(gè)過(guò)程涉及到兩個(gè)核心步驟,一是掩蔽技術(shù),二是高效預(yù)測(cè)。 V-JEPA 并未接受過(guò)理解某一特定類型操作的訓(xùn)練。相反,它對(duì)一系列視頻進(jìn)行了自我監(jiān)督訓(xùn)練,并了解了許多有關(guān)世界如何運(yùn)作的知識(shí)。Meta 團(tuán)隊(duì)仔細(xì)考慮了屏蔽策略——如果你不遮擋視頻的大片區(qū)域,而是到處隨機(jī)采樣補(bǔ)丁,那么任務(wù)就會(huì)變得過(guò)于簡(jiǎn)單,并且模型不會(huì)學(xué)到任何關(guān)于世界的特別復(fù)雜的東西。 在抽象表示空間進(jìn)行預(yù)測(cè)至關(guān)重要,因?yàn)檫@使得模型能夠集中于視頻中更高層次的概念信息,而非那些對(duì)大多數(shù)任務(wù)來(lái)說(shuō)并不重要的細(xì)節(jié)。畢竟,當(dāng)視頻展示一棵樹(shù)時(shí),觀看者通常不會(huì)對(duì)每片葉子的細(xì)微動(dòng)作感興趣。 Meta 表示,V-JEPA 是第一個(gè)擅長(zhǎng)“凍結(jié)評(píng)估”的視頻模型,只要在編碼器和預(yù)測(cè)器上進(jìn)行所有自監(jiān)督預(yù)訓(xùn)練。當(dāng)想讓模型學(xué)習(xí)一項(xiàng)新技能時(shí),只需訓(xùn)練一個(gè)小型輕量級(jí)專業(yè)層或在此之上訓(xùn)練一個(gè)小型網(wǎng)絡(luò),這是非常高效和快速的。 V-JEPA 中的“V”代表“視頻”,它只是一個(gè)關(guān)于感知的視頻模型。但 Meta 表示,正在仔細(xì)考慮將音頻與視覺(jué)效果結(jié)合起來(lái),進(jìn)一步構(gòu)建世界模型。 現(xiàn)在,Meta已經(jīng)將V-JEPA代碼開(kāi)源,供用戶下載使用。而Sora仍然沒(méi)有向普通用戶開(kāi)放。 不論 LeCun 是真心覺(jué)得生成式路線無(wú)法實(shí)現(xiàn)世界模型,還是為了讓 V-JEPA 在與 Sora 的競(jìng)爭(zhēng)中爭(zhēng)取用戶的關(guān)注度,Meta 都在用開(kāi)源的方式真正實(shí)現(xiàn)“open 的 AI”。 這一次,V-JEPA 能否像去年的 LLama 一樣,利用開(kāi)源模式在大模型的競(jìng)賽中占得先機(jī)? *參考資料: 《Meta發(fā)布V-JEPA,世界模型更進(jìn)一步,這是通往通用人工智能(AGI)之路嗎?》,作者:求索,知乎。 (封面圖來(lái)源:Meta官網(wǎng)) |
|
來(lái)自: 鄭飛3bbr5o1bk2 > 《2024》