從預訓練轉向推理，大模型廠商尋找新的Scaling Law

素心館801 2025-02-18 發(fā)布于四川

展開全文

微資訊

2024.11.2307:28

最近，關于Scaling Law是否失效的討論居高不下。

起因是The Information、路透社和彭博社接連爆出LLM進展放緩，Scaling Law撞墻。

The Information表示，據(jù)OpneAI內部人員透露，GPT系列模型更新緩慢，即將推出的下一代旗艦模型Orion并沒有實現(xiàn)質的飛躍，雖然性能上超過了以往模型，但相較于從GPT-3到GPT-4的迭代，改進幅度縮小，OpenAI正在轉變策略。

路透社也發(fā)文表示，由于當前方法受到限制，OpenAI和其他公司正在尋求通向更智能AI的新途徑。

隨后，彭博社也出來拱火，認為OpenAI、谷歌、Anthropic三家AI公司，在新模型開發(fā)上的付出與回報的差額正在逐漸擴大。

報道稱，谷歌即將推出的新版Gemini并未達到內部預期，Anthropic也推遲了備受期待的Claude 3.5「超大杯」Opus的發(fā)布時間。

盡管，后面山姆.奧特曼親自下場辟謠：沒有墻。微軟AI主管Mustafa Suleyman也表示，不會有任何放緩。

但不爭的事實是，模型界“三巨頭”在預訓練方面接連碰壁，模型發(fā)展遇到瓶頸。Scaling Law的邊界真的已經(jīng)到來了嗎？

一、暴力美學失效

Scaling Law也稱尺度定律，被業(yè)界認為是大模型預訓練第一性原理。

2020年，OpenAI發(fā)布論文“Scaling Laws for Neural Language Models”，首次發(fā)現(xiàn)模型參數(shù)量、數(shù)據(jù)集大小、訓練計算量的關系，即三者中任何一個因素受限時，Loss與其之間存在冪律關系，其中一些趨勢跨越了超過七個數(shù)量級。

也就是說，模型能力會隨著參數(shù)量的增加而不斷提升。OpenAI沿著這個思路也確實大獲成功，在論文發(fā)布四個月后，GPT3問世，再到2022年ChatGPT上線，后面的故事大家都已經(jīng)清楚。

從GPT3到GPT4，從Gemini到Claude，Scaling Law的暴力美學被一次次證明其正確性。

不過，隨著模型參數(shù)不斷增加，對數(shù)據(jù)量的需求也是指數(shù)級增長，人類互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)遲早有一天會被大模型“吞噬”，只是這一天來得如此之快。

The Information指出，OpenAI下一代ChatGPT 5的訓練出現(xiàn)了重大瓶頸，原因之一是高質量文本數(shù)據(jù)越來越少。

下一代要發(fā)布的旗艦模型Orion，在預訓練階段只用了20%的訓練量，就達到了GPT4的水平，能力上升的很快，但OpenAI的研究者發(fā)現(xiàn)，后邊增加訓練量，Orion的水平提升卻很慢很微小，沒有實現(xiàn)從GPT3到GPT4的質得飛躍，這或許也是OpenAI并沒有將Orion命名為GPT5的原因。

谷歌和Anthropic也面臨著相同的問題，谷歌的下一代Gemini 模型表現(xiàn)低于內部預期，Anthropic Claude 3.5 Opus 的發(fā)布也將推遲。

國內，10月初，就有消息傳出，“AI六小虎”中已經(jīng)有兩家公司已經(jīng)決定逐步放棄預訓練模型，近期又有消息指出，仍在繼續(xù)預訓練的公司只剩下智譜AI和MiniMAX，其他包括月之暗面、百川只能在內的公司都已經(jīng)放棄預訓練。

除了這些AI初創(chuàng)公司，國內的BAT包括字節(jié)這些大廠對預訓練的進展并沒有披露過多，都在卷向應用層。

實際上，國內模型廠商轉向應用也從側面印證了大模型Scaling Law目前存在的困境。

LLM除了吞噬了大量的數(shù)據(jù)外，在訓練過程中所消耗的大量算力、電力等能源也成為嚴重阻礙，此外更為重要的是，超大規(guī)模的前期投入與收益無法匹配，ROI過低。

OpenAI研究者Noam Brown前段時間曾公開表示，更先進的模型可能在經(jīng)濟上不可行?！爱吘梗覀冋娴囊ㄙM數(shù)千億美元或數(shù)萬億美元訓練模型嗎？”Brown 說，“在某個時候，scaling 范式會崩潰。”

超大規(guī)模語言模型的預訓練過程極其耗費資源，通常需要數(shù)十萬張GPU并行運行數(shù)月之久，單次訓練成本可達數(shù)千萬至數(shù)億美元。例如，擁有1.8萬億參數(shù)的ChatGPT 4模型，其單次訓練費用大約為6300萬美元。

然而盡管投入巨大，這些新模型在性能上的提升卻與之前的模型性能所差無幾，這種情況下，大模型公司下一輪的融資故事恐怕難以講下去。

目前，以OpenAI為代表的初創(chuàng)企業(yè)，現(xiàn)在并沒有跑通商業(yè)模式，投資人的錢也不是大風刮來的，如果長時間看不到回報，他們對繼續(xù)投資的態(tài)度肯定會更加謹慎。畢竟，沒有那個投資人原意一直當“冤大頭”。在這種情況下，國內大模型行業(yè)整體轉向了更符合商業(yè)利益的做法——做AI應用。

另外從技術角度看，整個AI行業(yè)還有另一個轉向——從預訓練向推理轉向。

Scaling Law的忠實追隨者OpenAI前首席科學家Ilya Sutskever，在最近接受路透社采訪時表示，擴大預訓練的結果已經(jīng)達到了平臺期。

“現(xiàn)在重要的是「擴大正確的規(guī)模」”他表示，“2010年代是scaling的時代，現(xiàn)在，我們再次回到了奇跡和發(fā)現(xiàn)的時代。每個人都在尋找下一個奇跡?！?/p>

二、大廠轉向推理層，尋找新的Scaling Law

面對大模型Scaling Law降速的事實，各巨頭紛紛尋找新的擴展定律。

事實上，目前討論的Scaling Law撞墻更多的是指預訓練擴展定律（Pre-training Scaling Law），也就是上文討論的大模型暴力美學。

但是有關后訓練和推理的Scaling Law還未被充分挖掘，這也是諸多大佬認為Scaling Law沒有失效的重要原因。

后訓練擴展定律（Post-training Scaling Law）與傳統(tǒng)的預訓練擴展定律不同，關注的是在模型訓練完成后，如何通過增加推理階段的計算量來提升模型性能。

后訓練擴展定律表明，即使模型參數(shù)保持不變，通過增加推理階段的計算量，也可以顯著提升模型的性能

而推理擴展定律（Inference Scaling Law）則強調在推理階段通過增加計算資源來提升模型性能的原則。

提到這兩個定律，不得不提到測試時計算（test-timi compute ），測試時計算可以被看做是實現(xiàn)后訓練擴展定律和推理擴展定律的關鍵手段。

那么什么是測試時計算？

測試時計算是一種在模型推理階段通過優(yōu)化計算資源分配來提高模型性能的方法。與預訓練相比，測試時計算借助強化學習、原生思維鏈和更長的推理時間，能夠在面對復雜問題時，能夠智能地分配計算資源，用最經(jīng)濟的成本提供更高效和準確的答案。

OpenAI推出的O1推理模型正是靠測試時計算實現(xiàn)的。即在訓練好的O1模型回答問題時，也就是在推理階段，給他更多時間和算力，讓它自己從自己的回復中得到更好的答案。

在OpenAI提供的O1模型后訓練階段的縮放定律圖標顯示，隨著強化學習時間和推理思考時間的增長，O1模型性能得到顯著提升。

不僅OpenAI，微軟CEO Satya Nadella在微軟Ignite大會上也直言，看到了“測試時計算”新的擴展規(guī)律的出現(xiàn)，并表示微軟Copilot的 "深入思考"功能也是利用這一規(guī)律來解決更難的問題。

實際上，OpenAI O1模型的推出將預訓練Scaling Law范式帶向了推理層的Scaling Law，國內企業(yè)也紛紛追隨OpenAI腳步上線推理模型。

這兩天，國內DeepSeek扔出重磅炸彈，上線了全新的推理模型 DeepSeek-R1-Lite-Preview，性能直逼O1。背后也同樣是推理層的Scaling Law在發(fā)揮作用。

DeepSeek-R1在數(shù)學和編程方面與O1-preview相當，甚至在一些競賽中已經(jīng)領先O1。

DeepSeek之所以能有如此強勢的推理能力，很重要的一點就是他們采用了超長推理時間。官方表示，DeepSeek R1 系列模型推理過程包含大量反思和驗證，思維鏈長度可達數(shù)萬字。隨著思考長度的增加，模型性能在穩(wěn)步提升。

最近，一反常態(tài)的月之暗面，也在成立一周年之際，向外界公布了其數(shù)學模型k0-math的進展情況，要知道此前月之暗面的唯一核心在C端產(chǎn)品Kimi身上。

據(jù)了解，k0-math采用了強化學習和思維鏈推理技術，也是Open AI o1系列背后的關鍵技術。

楊植麟早已預見，隨著訓練數(shù)據(jù)達到上限，推理層的Scaling Law想象空間更大，也因此在推理模型上早早準備并上線。他表示，Open AI o1的變化其實可以預測，接下來會越來越關注基于強化學習（RL）的方法去“Scale”。

國內還有阿里、昆侖萬維等也都上線了相關的推理大模型產(chǎn)品，無論從技術實現(xiàn)角度還是可落地性角度，Scaling Law已經(jīng)從預訓練向推理層轉向。

結尾

大模型預訓練的Scaling Law之所以能跑出來，是因為在當時的條件下，這是投入與回報最佳的Scale up路線。

然而，站在歷史角度上看，每個技術曲線的Scaling law都有其壽命，不存在一招吃遍天下的情況。

正如摩爾定律最初定義的是集成電路中晶體管數(shù)量每兩年翻一番，但隨著時間的推移，這一規(guī)律在新技術的推動下不斷擴展，成為廣義摩爾定律，甚至超越之前的發(fā)展速度一樣。

在AI領域，雖然短期內可能會遇到技術瓶頸或成本效益比下降的問題，但從長遠來看，AI的軟硬件能力仍然會以每十年六個數(shù)量級的速度呈指數(shù)增長。

這種增長將通過多種創(chuàng)新路徑得以實現(xiàn)，包括但不限于算法優(yōu)化、硬件加速、新型計算架構等，共同維持AI技術的快速發(fā)展趨勢。

即使Scaling Law真的撞墻，前代技術的商業(yè)化應用紅利依然會持續(xù)很久。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：素心館801 > 《AI》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

素心館801

關注對話

TA的最新館藏

2025年5月
[轉] 前置的“失敗”：《馬關條約》簽訂130年后的精細復盤
[轉] 大明財政問題在清初如何解決？
將高校成果轉化作為評價應用研究的主要指標
[轉] 手少陰心經(jīng)的9穴應用
[轉] 從三人到千軍萬馬，黨章里的“平凡條款”凝練中國式戰(zhàn)斗力?

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

從預訓練轉向推理，大模型廠商尋找新的Scaling Law

微資訊

從預訓練轉向推理，大模型廠商尋找新的Scaling Law