日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

 天下小糧倉 2025-04-29

盡管LLM看似能夠進行流暢推理和問題解答,但它們背后的思維鏈其實只是復雜的統(tǒng)計模式匹配,而非真正的推理能力。AI模型僅僅通過海量數(shù)據(jù)和經驗法則來生成響應,而不是通過深刻的世界模型和邏輯推理來做決策。

我們離人類智能水平的AI還遠嗎?

如果你問OpenAI、Anthropic、Google等頂尖AI公司的CEO,他們肯定是信心滿滿,認為就在眼前。

但現(xiàn)實是,越來越多的人認為,AI的思維方式跟人類完全不同。

研究者們發(fā)現(xiàn),如今的AI模型在底層架構上就存在根本性的局限。

AI本質上是通過學習海量的經驗規(guī)則,然后把這些規(guī)則套用到它們所接觸到的信息上,進而模擬智能。

這與人類,甚至動物對世界的理解方式大不相同。

生物體會構建一個關于世界是如何運轉的「世界模型」,這里面會包含因果關系,能讓我們預測未來。

很多AI工程師會宣稱,他們的模型也在其龐大的人工神經網絡中構建出了類似的「世界模型」。

證據(jù)是這些模型能夠寫出流暢的文章,并能表現(xiàn)出明顯的推理能力。

尤其是最近推理模型取得的進展,更加讓人相信我們已經走在了通向AGI的正確道路上。

然而,近期的一些研究讓我們可以從內部窺探一些模型的運行機制,結果讓人懷疑我們是否真的在接近AGI。

「關于這些模型到底在干什么,以及人們用來描述它們的那些擬人化說法(比如『學習』、『理解』之類的),現(xiàn)在爭議挺大的?!筍anta Fe研究所研究AI的教授Melanie Mitchell說。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

Melanie Mitchell,Santa Fe研究所教授

一堆經驗法則

Mitchell認為,越來越多的研究表明,這些模型似乎發(fā)展出了海量的「經驗法則」,而不是構建更高效的心理模型來理解情境,然后通過推理完成任務。

哈佛大學的AI研究員Keyon Vafa首次聽到「一堆經驗法則」這個提法時表示「感覺一下子點醒了我——這就是我們一直想描述的東西。」

Vafa的研究試圖搞清楚:當AI被輸入數(shù)百萬條類似谷歌地圖的逐步導航指令后,會構建出怎樣的認知地圖。他和團隊以曼哈頓錯綜復雜的街道網絡作為測試樣本。

結果呢,AI畫的看起來根本不像曼哈頓的街道地圖。

仔細檢查發(fā)現(xiàn),AI竟然推演出各種離譜路線——比如橫穿中央公園的直線,或者斜著連跨好幾個街區(qū)。

但詭異的是,這個模型給出的分步導航指令在99%的情況下居然能用。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

AI在接受了數(shù)百萬條逐向導航指令的訓練后,在它自己的「腦子」里勾勒出了一張曼哈頓地圖,來自論文「Evaluating the World Model Implicit in a Generative Model」

Vafa解釋說,雖然這張亂七八糟的地圖能讓司機崩潰,但AI本質上是從所有可能的起點出發(fā),為各種路況學了一大堆獨立的導航規(guī)則。

AI龐大的「腦容量」加上超強算力,讓它能用人類根本想不到的野路子解決問題。

真會思考,還是死記硬背?

有些研究表明,模型會為不同數(shù)字范圍(比如200到210)專門學一套乘法規(guī)則。你覺得這種方法做數(shù)學不太靠譜?沒錯,你想對了。

現(xiàn)在的AI本質上是一堆復雜、拼湊的「奇葩機器」,充滿了各種臨時湊合的解決方案來應對我們的指令。

Vafa說,理解這一點能很好地解釋為什么AI在面對稍稍超出其訓練范圍的任務時就會掉鏈子。

比如,當團隊僅封鎖虛擬曼哈頓1%的道路時,AI的繞行表現(xiàn)就直線暴跌。

Vafa表示,這體現(xiàn)了當今AI與人類的巨大差異。

一個人可能無法記住99%的導航路線,但他有足夠的靈活性,來輕松繞過一點道路施工路段。

這也解釋了為什么模型需要那么大:它們得記住一大堆經驗法則,沒法像人類一樣把知識壓縮成一個心理模型。

人類可能試幾次就理解了,但AI需要學習海量的數(shù)據(jù)。

為了推導出那些零散的規(guī)則,AI得看到所有可能的單詞、圖像、棋盤位置等組合。而且為了訓練得更好,它們得反復看這些組合無數(shù)次。

或許這也能解釋:為什么不同公司的AI「思考」方式如出一轍,連性能表現(xiàn)都趨于接近——而這種性能,可能已經觸頂了。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

截至每年第二季度的各家模型最高智力分數(shù)

AGI未取得任何進展

今年3月,Anthropic 發(fā)布了一篇新論文「On the Biology of a Large Language Model」,以前所未有的方式揭示了這些AI模型內部的「想法」。

由此,我們不再需要通過分析外部行為來猜測,而是可以窺視LLM黑盒中發(fā)生的推理過程,并檢查LLM在多大程度上可解釋。

結果表明,這些模型根本沒有像許多人認為的那樣進行推理。

內部發(fā)生的事情看起來不像人類進行推理時所采取的步驟,而且,當模型告訴我們它們如何推理時,這完全是捏造的。這與我們觀察到的它們內部正在做的事情并不相符。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

所有LLM在AGI方面取得的所謂「進展」,實際上都歸功于構建了規(guī)模極其龐大的統(tǒng)計模型,這些模型制造出了一種智能的假象。

每一次性能的提升并沒有讓它們變得更聰明;它只是讓它們在輸入機器的數(shù)據(jù)范圍內,成為了更好的啟發(fā)式預測器。

智能和大型統(tǒng)計模型之間的能力差異通常難以察覺,但它仍然是一個重要的本質區(qū)別,因為它將顯著改變可實現(xiàn)的應用場景。

我們知道LLM的基礎是統(tǒng)計模型,那么智能本身是否只是統(tǒng)計模式分析?

確實如此,智能包含了從統(tǒng)計模式匹配中獲得的能力,兩者看似有重疊,但反過來卻不成立。

統(tǒng)計模型沒法完全復制智能的所有功能。即使在看似重疊的領域,統(tǒng)計模型的效率也低得離譜,還不靠譜。

統(tǒng)計模型就像信息的靜態(tài)快照,基于現(xiàn)實的規(guī)則生成,但它不是現(xiàn)象本身,所以沒法從基本原理創(chuàng)造新信息。

所謂模型的「涌現(xiàn)行為」,其實就是各種模式的組合。模型越大,找到的模式越多,組合出的模式也越多。歸根結底,一切都是模式。

Anthropic等機構的研究進一步表明,LLM確實能通過統(tǒng)計分析得出正確答案,但它的推理方式跟智能推理完全不同。

這種本質上的差異,對LLM最終能實現(xiàn)的目標影響巨大。

如何檢查LLM的「想法」?

Anthropic使用歸因圖譜工具檢查了LLM用于執(zhí)行簡單數(shù)學加法的過程。

結果表明,這是一個復雜的啟發(fā)式網絡,而不是一個已定義和理解的加法算法。

LLM用來解決以下問題的過程:36+59 = 95

我們現(xiàn)在重現(xiàn)算式36+59=的歸因圖?!附咏?7的數(shù)相加」這一低精度特征,被用于查詢「接近36的數(shù)與接近60的數(shù)相加」的查找表特征,而這個查找表特征又影響著「和接近92」這一特征。 這種低精度路徑,補充了右側的高精度模塊化特征(「左操作數(shù)以9結尾」 影響 「加上一個以9結尾的數(shù)」,后者又影響 「以6結尾的數(shù)加上以9結尾的數(shù)」,最終影響 「和以5結尾」)。 這些特征組合在一起,最終給出了正確的和95。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

這個過程代表了一系列啟發(fā)式方法和記憶模式的查找表。因此,當要求LLM描述它用來解決計算的方法時,它會這樣回答:

我將個位數(shù)相加 (6+9=15),進位1,然后將十位數(shù)相加 (3+5+1=9),結果為95。

但是,我們可以看到LLM根本沒有做任何類似的事情。LLM提供的答案與內部過程不匹配。

它只是提供了與我們在訓練數(shù)據(jù)中找到的答案模式相匹配的文本。

AI對推理的解釋純屬虛構

Anthropic的Claude 3.7系統(tǒng)卡也得出結論,模型產生的思維鏈在描述構建輸出的過程時并不可靠。

這些結果表明,模型利用了提示,但沒有在思維鏈中明確說明,這表明CoT可能無法可靠地揭示模型的真實推理過程。

另一篇論文「Reasoning Models Don’t Always Say What They Think」進一步研究了思維鏈,并且還確定推理步驟并不代表模型的內部過程。

……模型可以從人類文本的預訓練或監(jiān)督微調中學習表達他們的推理,這些人類文本闡明了人類的思維鏈。

另一方面,來自人類反饋的強化學習(RLHF)可能會激勵模型從CoT中隱藏不良推理。

……更令人擔憂的是,我們發(fā)現(xiàn)模型有時會生成與其內部知識相矛盾的不可靠的CoT。

這些結果表明,思維鏈要么主要是在思維鏈訓練中學習到的模式,要么是RLHF教會了模型如何迎合我們的期望。

但這兩種情況都不能代表模型實際在內部做什么。

如果「思考」過程的思維鏈不是源自該過程本身,那么這一切都是100%的幻覺。

它看似符合推理步驟,但這只是因為它匹配了我們期待的模式,而不是因為它能真正理解或感知自己的行為。

這些機器其實就像「制造幻覺」的裝置,靠著復雜的模式匹配技巧來給出正確答案。

換句話說就是,思維鏈不能代表推理步驟。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

AI智能體的作用有限

AI智能體被認為是解決許多場景中幻覺問題的一種辦法。

比如,如果LLM不擅長數(shù)學,它可以直接用工具來搞定。

但事情沒那么簡單。

Transluce的另一項調查發(fā)現(xiàn),LLM有時候會「編造」自己使用了工具。

也就是說,它們會說自己用了工具,但其實根本沒用,而且越新的模型在這方面表現(xiàn)越差。

在OpenAI的o3模型預發(fā)布測試期間,我們發(fā)現(xiàn)o3經常捏造它為滿足用戶請求而采取的操作,并在用戶質問時詳細地為這些捏造辯解。

……o系列模型(o3、o1和o3-mini)比GPT系列模型(GPT-4.1和GPT-4o)更頻繁地錯誤聲稱使用代碼工具。

……o3聲稱通過在編碼環(huán)境中運行Python代碼來滿足用戶的請求。鑒于o3無法訪問代碼工具,因此所有此類操作都是由模型捏造的。

當用戶追問其虛構的代碼執(zhí)行時,該模型會死不承認,并為其不準確的代碼輸出提供借口……

如果LLM產生幻覺,那么整個工具流程基本上都被污染了。只要LLM是信息處理流程的一部分,這個問題就無法解決。

它可以在任何步驟中產生幻覺。這包括不運行工具、運行不應運行的工具、捏造工具的參數(shù)或虛構工具的結果。

LLM不可能成為可靠自動化的基礎。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

現(xiàn)在每天都有數(shù)十篇關于LLM架構的論文發(fā)表,對所有可能的問題提出改進方案和解決方案。

似乎每個問題都已經有了解決方案,而所有這些研究成果被整合到模型中只是時間問題。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

然而,這些架構的每一個「調整」都是孤立地進行研究的。

可以將這些大型統(tǒng)計模型想象成一個擁有大量全局變量的龐大代碼庫。

從本質上講,對模型的許多這些「改進」可能會在某種程度上互不兼容,因為它們會引入副作用,從而削弱模型在其他領域的表現(xiàn)。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

AGI遙遙無期,LLM不過是「一根筋」

這些模型只不過是統(tǒng)計模型。

它們無法判斷什么是對,什么是錯。只能通過啟發(fā)式方法來判斷什么可能是對的,什么可能是錯的。因此,無法通過推理來構建世界的客觀規(guī)律。

在追求類人推理機器的道路上,我們已經多次犯錯。我們現(xiàn)在錯了,而且可能還會再錯。

人類的推理遠比統(tǒng)計模型復雜得多。

我們每次都錯了!

——Yann Lecun

這就是為什么AI需要海量的例子才能提高其在任何任務上的能力。

AI的任何成就都只是基于歷史數(shù)據(jù)的總結。沒有推理能力,就必須不斷地進行訓練才能保持相關性。

有些人會說:「但是看看所有這些強大的能力,難道它不是在推動我們更接近AGI嗎?」

不,它正在通過不同的方式實現(xiàn)目標。

這種區(qū)別很重要,因為徒有智能表象,而缺乏真正理解的系統(tǒng),總是會遭受不可預測的失敗,這使得它們不適合用于可信賴的系統(tǒng)。

毫無疑問,大規(guī)模擴展統(tǒng)計模型所能做的事情令人印象深刻,它們也有其用途。

高級的模式匹配本質上有點像算法,但它還是靠統(tǒng)計數(shù)據(jù)堆出來的算法,只能處理訓練數(shù)據(jù)里的關聯(lián),永遠沒法在專門的訓練集和測試基準之外表現(xiàn)得特別優(yōu)秀。

這意味著LLM將繼續(xù)改進基準測量和其他抽樣測試,與此同時,「AGI已經到來」的說法會越來越多。

但問題是,這些測試根本反映不了AI在現(xiàn)實中的真實水平。

當LLM實際上并不像我們以為的那樣「理解」世界時,現(xiàn)實環(huán)境對它來說,到處都是坑——稍不留神,它就會犯錯。

我們可以繼續(xù)擴大它們的規(guī)模,而且我們也會這樣做,但這非常低效。

與此同時,人腦以12 ~ 20瓦的功率運行,但在產生新穎的語義數(shù)據(jù)方面,仍然沒有AI可以與之競爭。

所有當前的架構都只是蠻力模式匹配。

如果我們走在通往智能的道路上,那么訓練數(shù)據(jù)量和功率需求都應該減少,而不是增加。

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

功耗和數(shù)據(jù)需求與能力的比率可能是一個更有價值的啟發(fā)式方法,可以用來確定我們是否正在走向真正的智能。

參考資料:

https://www./p/no-progress-toward-agi-llm-braindead-unreliable

https://www./tech/ai/how-ai-thinks-356969f8

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多