2025 年初,AI 領(lǐng)域掀起了一場(chǎng)前所未有的風(fēng)暴,一家成立僅三年的中國(guó)公司深度求索接連放出兩枚“核彈”:
消息一出,Nvidia(英偉達(dá))市值單日蒸發(fā) 1200 億美元,美股 AI 概念股全線暴跌,整個(gè)硅谷為之震動(dòng)。這不僅僅是技術(shù)上的顛覆,更是 AI 競(jìng)爭(zhēng)格局的徹底改寫(xiě)。DeepSeek 證明了 領(lǐng)先 AI 并不一定依賴昂貴的算力,美國(guó)的芯片封鎖政策或許已經(jīng)失效。 這場(chǎng) AI 變局的核心看點(diǎn):
這場(chǎng) AI 格局重塑的背后,究竟意味著什么?DeepSeek 的策略如何改變?nèi)蚩萍及鎴D?在這場(chǎng)行業(yè)劇變中,科技分析頂流博客 Stratechery 的創(chuàng)始人 Ben Thompson 再次站在了前沿。 作為《紐約時(shí)報(bào)》《經(jīng)濟(jì)學(xué)人》的特約撰稿人,Thompson 的深度推演長(zhǎng)期被硅谷高管視為戰(zhàn)略決策的參考。早在 2023 年,他就預(yù)測(cè) “AI 模型商品化將摧毀封閉生態(tài)”,DeepSeek 事件正是這一理論的完美驗(yàn)證。 DeepSeek 發(fā)布了什么公告?最近一次引發(fā)轟動(dòng)的公告是 R1,一個(gè)類似于 OpenAI o1 的推理模型。 然而,導(dǎo)致此次轟動(dòng)的諸多信息——包括 DeepSeek 的訓(xùn)練成本——實(shí)際上是在 V3 公布時(shí)(圣誕節(jié)期間)披露的。 帶火了這種模型命名方式,是 OpenAI 犯下的最大“罪行”嗎?從前往后看:V2 模型是什么?為什么它如此重要?需要注意的是,上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練,不包括架構(gòu)、算法或數(shù)據(jù)的前期研究和消融實(shí)驗(yàn)成本。 ![]() 怎么證實(shí)論文里的那些數(shù)字?當(dāng)然,這只是最終的訓(xùn)練階段,并非所有成本,但這個(gè)數(shù)字是合理的。 ![]() DeepSeek 真的有 5 萬(wàn)張 H100 GPU 嗎?Scale AI 的 CEO Alexandr Wang 曾表示他們擁有 50,000 張 H100。 *(關(guān)于此人,歡迎回顧《27 歲創(chuàng)始人已經(jīng)給 AI 準(zhǔn)備好「人類最終測(cè)試」!》) 但實(shí)際上,我們不知道 Alexandr Wang 的消息來(lái)源。他可能是參考了 2024 年 11 月 Dylan Patel 的一條推文,該推文聲稱 DeepSeek 擁有超過(guò) 50,000 張 Hopper GPU。 H800 也是 Hopper 架構(gòu)的 GPU,但由于美國(guó)制裁,H800 的內(nèi)存帶寬遠(yuǎn)低于 H100。 關(guān)鍵點(diǎn)在于:DeepSeek 的諸多創(chuàng)新,正是為了克服 H800 相較于 H100 的內(nèi)存帶寬劣勢(shì)。如果你認(rèn)真計(jì)算過(guò) V3 訓(xùn)練過(guò)程,你會(huì)發(fā)現(xiàn) DeepSeek 實(shí)際上擁有過(guò)剩的計(jì)算能力,這是因?yàn)?DeepSeek 專門(mén)在 H800 的 132 個(gè)處理單元中劃分了 20 個(gè)用于管理芯片間通信。 這在 CUDA 中是無(wú)法做到的,因?yàn)?DeepSeek 的工程師必須使用 PTX(Nvidia GPU 的低級(jí)指令集,類似于匯編語(yǔ)言)進(jìn)行優(yōu)化。這種級(jí)別的優(yōu)化只有在必須使用 H800 時(shí)才有意義。如果 DeepSeek 能夠使用 H100,他們可能會(huì)選擇更大的訓(xùn)練集群,而不是針對(duì) H800 進(jìn)行如此極致的優(yōu)化。 ![]() 這是否違反了美國(guó)的芯片禁令?沒(méi)有。 H100 被美國(guó)禁令禁止出口到中國(guó),但 H800 沒(méi)有被禁。 很多人認(rèn)為,訓(xùn)練領(lǐng)先的 AI 模型需要更高的芯片間帶寬,但 DeepSeek 正是圍繞 H800 的帶寬限制,優(yōu)化了模型架構(gòu)和訓(xùn)練基礎(chǔ)設(shè)施。 ![]() V3 是一款領(lǐng)先的 AI 模型嗎?是的。 它至少能與 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5 競(jìng)爭(zhēng),而且比 Meta Llama 系列現(xiàn)有的最大模型更強(qiáng)。 ![]() 什么是蒸餾(distillation)?蒸餾是一種從另一個(gè)模型中提取知識(shí)的方法。 你可以向一個(gè)更強(qiáng)的“教師”模型提供輸入,記錄其輸出,然后用這些數(shù)據(jù)訓(xùn)練“學(xué)生”模型。例如,GPT-4 Turbo 可能是從 GPT-4 通過(guò)蒸餾得到的。對(duì)于 AI 公司來(lái)說(shuō),自己對(duì)自己的模型進(jìn)行蒸餾比較容易,因?yàn)?/span>他們可以完全訪問(wèn)這些模型。 但即使沒(méi)有完整的訪問(wèn)權(quán)限,通過(guò) API 甚至聊天客戶端也能進(jìn)行蒸餾。 蒸餾顯然違反了 OpenAI 等公司的使用條款,但唯一能阻止它的辦法就是直接封禁訪問(wèn),比如 IP 封鎖、速率限制等。 行業(yè)內(nèi)普遍認(rèn)為,蒸餾在 AI 訓(xùn)練過(guò)程中非常普遍,這也是為什么越來(lái)越多的模型接近 GPT-4o 的質(zhì)量。 盡管我們無(wú)法確切知道 DeepSeek 是否蒸餾了 GPT-4o 或 Claude,但如果他們沒(méi)有這樣做,反而會(huì)令人驚訝。 ![]() 蒸餾對(duì)領(lǐng)先的 AI 公司來(lái)說(shuō)是個(gè)壞消息嗎?對(duì),這是個(gè)壞消息。 但也有正面影響:OpenAI、Anthropic、Google 可能都在用蒸餾來(lái)優(yōu)化自己的推理模型,從而降低成本,提高效率。 負(fù)面影響是,他們要承擔(dān)昂貴的訓(xùn)練成本,而其他人可以“免費(fèi)搭車(chē)”。 這可能正是微軟和 OpenAI 關(guān)系漸行漸遠(yuǎn)的核心經(jīng)濟(jì)因素。微軟主要關(guān)心推理服務(wù)(提供 AI 計(jì)算能力),但不太愿意資助 OpenAI 建設(shè) 1000 億美元的數(shù)據(jù)中心來(lái)訓(xùn)練模型。 ![]() 這就是最近科技股股價(jià)下跌的原因嗎?從長(zhǎng)期來(lái)看,模型的普及化和推理成本降低對(duì)科技巨頭是好事。
但 Google 的處境可能會(huì)更艱難:
盡管 Google 也能享受更低的成本,但任何改變現(xiàn)狀的事情,通常對(duì) Google 都是負(fù)面的。 ![]() 終于可以開(kāi)始講 R1 了嗎?其實(shí)我花了很多時(shí)間講 V3,是因?yàn)?nbsp;V3 才是實(shí)際體現(xiàn)行業(yè)變革的模型。 R1 是一個(gè)類似于 OpenAI o1 的推理模型。它可以分步驟思考問(wèn)題,從而大幅提高代碼、數(shù)學(xué)、邏輯等領(lǐng)域的準(zhǔn)確性。它的誕生意味著: 1. OpenAI 沒(méi)有護(hù)城河。 ![]() DeepSeek 是怎么訓(xùn)練出 R1 的?DeepSeek 實(shí)際上訓(xùn)練了兩個(gè)模型:
R1-Zero 更值得關(guān)注,因?yàn)樗?strong>一個(gè)完全基于強(qiáng)化學(xué)習(xí)(RL)的推理模型。它沒(méi)有使用任何人工標(biāo)注數(shù)據(jù),而是通過(guò)自我進(jìn)化(self-evolution)學(xué)會(huì)了推理能力。 根據(jù) R1 論文(https:///pdf/2501.12948),R1-Zero 通過(guò) RL 訓(xùn)練后,其數(shù)學(xué)推理能力從 15.6% 提高到 71.0%,如果使用投票機(jī)制,甚至可以達(dá)到 86.7%,與 OpenAI o1-0912 相媲美。 DeepSeek 采用了一種全新的強(qiáng)化學(xué)習(xí)方法 來(lái)訓(xùn)練 R1-Zero。他們沒(méi)有依賴人類反饋(RLHF),而是完全依靠 AI 自己的進(jìn)化(self-evolution)。
然而,DeepSeek 完全放棄了人類反饋,直接讓 AI 通過(guò)自我學(xué)習(xí)進(jìn)化: 1. 他們給 R1-Zero 一組數(shù)學(xué)、代碼、邏輯問(wèn)題。 2. 設(shè)置兩個(gè)獎(jiǎng)勵(lì)函數(shù):
3. AI 自己嘗試不同的解法,并優(yōu)化自己的推理能力。 ![]() 什么是“頓悟時(shí)刻”?在訓(xùn)練 R1-Zero 的過(guò)程中,研究人員觀察到 AI 自己學(xué)會(huì)了分配更多的時(shí)間思考復(fù)雜問(wèn)題。
DeepSeek 論文這樣描述這一現(xiàn)象:
這與 DeepMind 訓(xùn)練 AlphaGo Zero 時(shí)觀察到的現(xiàn)象類似:
![]() R1 的實(shí)際表現(xiàn)為什么比 R1-Zero 更強(qiáng)?雖然 R1-Zero 具備很強(qiáng)的推理能力,但它存在兩個(gè)主要問(wèn)題: 1. 答案的可讀性很差(AI 過(guò)于關(guān)注推理,忽略了語(yǔ)言表達(dá))。 2. 存在語(yǔ)言混雜問(wèn)題(部分回答會(huì)夾雜多種語(yǔ)言,不夠一致)。 為了解決這些問(wèn)題,DeepSeek 進(jìn)一步優(yōu)化了 R1: 1. 加入了少量人工標(biāo)注的“冷啟動(dòng)”數(shù)據(jù),讓 AI 學(xué)會(huì)更自然的表達(dá)方式。 2. 引入多階段訓(xùn)練策略:
![]() 這是否意味著 AI 學(xué)會(huì)了自主訓(xùn)練?答案是肯定的。 DeepSeek 證明了 AI 可以通過(guò)強(qiáng)化學(xué)習(xí),自我進(jìn)化出推理能力。
換句話說(shuō),AI 現(xiàn)在可以自己訓(xùn)練自己:
這標(biāo)志著 AI 進(jìn)入了一個(gè)新的發(fā)展階段:
![]() 這是否意味著 AGI(通用人工智能)即將到來(lái)?目前,R1 并不是 AGI,但它確實(shí)向 AGI 邁出了重要一步。 DeepSeek 已經(jīng)證明了 AI 可以自己學(xué)習(xí)推理能力,接下來(lái):
![]() OpenAI 現(xiàn)在處于劣勢(shì)了嗎?不一定。 盡管 DeepSeek 在效率上領(lǐng)先,但 OpenAI 仍然擁有更強(qiáng)的整體模型能力:
不過(guò),DeepSeek 展示的低訓(xùn)練成本和高效推理,已經(jīng)徹底打破了 OpenAI 曾經(jīng)的技術(shù)壁壘。 ![]() 為什么大家對(duì) DeepSeek 這么震驚?有幾個(gè)主要原因: 1. 中國(guó)的 AI 追趕速度遠(yuǎn)超預(yù)期 許多人以為中國(guó)的軟件實(shí)力比美國(guó)弱,但 DeepSeek 證明中國(guó)可以在 AI 領(lǐng)域達(dá)到世界頂級(jí)水平。 2. DeepSeek 訓(xùn)練成本遠(yuǎn)低于預(yù)期 低成本意味著更多公司可以進(jìn)入 AI 競(jìng)爭(zhēng),OpenAI 的優(yōu)勢(shì)被削弱。 3. DeepSeek 證明了 AI 可以繞開(kāi)美國(guó)芯片禁令 ![]() 芯片禁令還重要嗎?美國(guó)的芯片禁令的確延緩了中國(guó) AI 的發(fā)展,但沒(méi)有阻止它。 相反,DeepSeek 在受限條件下進(jìn)行了極限優(yōu)化,反而創(chuàng)造了更高效的 AI 訓(xùn)練方法。 這不僅降低了 AI 訓(xùn)練成本,也讓中國(guó)的 AI 能夠在更弱的硬件上運(yùn)行。 從長(zhǎng)期來(lái)看:
![]() 總結(jié):DeepSeek 的意義是什么?DeepSeek 改變了 AI 競(jìng)爭(zhēng)的游戲規(guī)則: 1. 更低的訓(xùn)練成本 → AI 訓(xùn)練變得更便宜。 2. 更高效的推理 → AI 使用成本大幅下降。 3. AI 自我進(jìn)化能力 → 邁向 AGI 的關(guān)鍵一步。 最終,AI 將變得更加普及,AI 服務(wù)幾乎免費(fèi)。 參考鏈接:https:///2025/deepseek-faq/ |
|
來(lái)自: 天承辦公室 > 《008復(fù)合參謀》