本文來自微信公眾號(hào):字母榜,作者:馬舒葉,編輯:王靖,題圖來自:AI生成 梁文鋒帶領(lǐng)著DeepSeek,還在繼續(xù)攪動(dòng)大模型行業(yè)。 繼用R1模型炸場(chǎng)之后,1月28日凌晨,除夕夜前一晚,DeepSeek又開源了其多模態(tài)模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基準(zhǔn)測(cè)試中擊敗了DALL-E 3(來自 OpenAI)和Stable Diffusion。 隨后特朗普在會(huì)議上提到DeepSeek的出現(xiàn)為美國(guó)的企業(yè)敲響了警鐘,“我們需要集中精力在競(jìng)爭(zhēng)中獲勝”。相隔一天,據(jù)外媒報(bào)道,多名美國(guó)官員稱DeepSeek是“偷竊”,正對(duì)其展開國(guó)家安全調(diào)查。 OpenAI也適時(shí)發(fā)布聲明稱一直知道其他公司試圖蒸餾美國(guó)領(lǐng)先公司的模型,如今“采取反制措施保護(hù)我們的知識(shí)產(chǎn)權(quán)”,并表示將和美國(guó)政府緊密合作保護(hù)最先進(jìn)模型免受竊取。 或許梁文鋒自己都想不到,意外火出海的DeepSeek,刺痛著更多人的神經(jīng)。 而一年前,DeepSeek V2模型發(fā)布時(shí),便開始被冠上AI屆拼多多的稱號(hào)。 反卷大廠的梁文鋒,早已在AI領(lǐng)域復(fù)制過黃崢式“后來居上”的故事,并在國(guó)內(nèi)掀起打到骨折的大模型價(jià)格戰(zhàn)。 當(dāng)時(shí),在接受36氪采訪中,梁文鋒表示,“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。” 如果說梁文鋒的鯰魚效應(yīng),在于證明了用低成本也能高效率訓(xùn)練出AI大模型,無意卷到了BAT。去年一年,黃仁勛則在制造另一種鯰魚效應(yīng),即以每6個(gè)月為周期,更新更高性能的芯片,使得害怕?lián)尣坏阶钚翯PU而掉隊(duì)的巨頭們,瘋搶英偉達(dá)GPU,微軟、谷歌、Meta、馬斯克,都被拽進(jìn)了這場(chǎng)GPU大作戰(zhàn)游戲里。 一年后,DeepSeek成為硅谷眼中“神秘的東方力量”,被Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)評(píng)價(jià)道,“過去十年來,美國(guó)可能一直在人工智能競(jìng)賽中領(lǐng)先于中國(guó),但DeepSeek的AI大模型發(fā)布可能會(huì)'改變一切’?!?/p> 起因是DeepSeek在年前發(fā)布了新的開源模型DeepSeek R1,不僅性能追上了OpenAI o1完整版,用550萬(wàn)美元的訓(xùn)練開銷做到硅谷投入上億美元的效果。 在這場(chǎng)熱潮前,大模型的主流敘事是英偉達(dá)高端CPU“一芯難求”,而如今,黃仁勛的銷冠神話,迎來了梁文鋒的正面沖擊。 梁文鋒所帶領(lǐng)的DeepSeek,讓美國(guó)華爾街開始重新審視,在這場(chǎng)大模型生存戰(zhàn)里,英偉達(dá)芯片和高端算力的需求是否存在泡沫。這樣的擔(dān)憂,使得英偉達(dá)在1月27日一夜蒸發(fā)近6000億美元市值。 而這一切,在梁文鋒看來,只是“按照自己的步調(diào)來做事”,然后核算成本定價(jià)。 梁文鋒并非有意成為鯰魚,但正如硅谷著名風(fēng)投家Marc Andreessen的評(píng)價(jià):“作為開源項(xiàng)目,這是對(duì)世界的一份深遠(yuǎn)饋贈(zèng) ?!彼麄児?jié)約了大量的成本,也讓很多高薪的硅谷大佬,和享受這個(gè)行業(yè)巨大泡沫的公司,顏面掃地。 1月28日,OpenAI CEO奧特曼終于回應(yīng)了DeepSeek,他夸贊DeepSeek讓人印象深刻,特別在于提供模型的性價(jià)比上。隨后則話鋒一轉(zhuǎn),強(qiáng)調(diào)OpenAI將提供更好的模型,并暫停一些發(fā)布。此前,奧特曼在X上迅速發(fā)布首個(gè)智能體Operator,還開始劇透起了即將上線的o3-mini。網(wǎng)友戲稱,“DeepSeek逼出了奧特曼的新大招。” 同時(shí),根據(jù)外媒爆料,DeepSeek的發(fā)布引發(fā)了Meta的緊急加班,工程師瘋狂拆解代碼,員工爆出其高管的薪資竟比訓(xùn)練整個(gè)V3模型的成本還高。 2025年,不想當(dāng)鯰魚的梁文鋒,結(jié)結(jié)實(shí)實(shí)攪動(dòng)了一池春水。 “大部分中國(guó)公司習(xí)慣follow,而不是創(chuàng)新?!倍诓稍L中,對(duì)于上一次DeepSeek引發(fā)大模型價(jià)格戰(zhàn)的熱議,梁文鋒表示,DeepSeek正以創(chuàng)新貢獻(xiàn)者的身份,參與到這場(chǎng)此前由美國(guó)主導(dǎo)的科技創(chuàng)新游戲里。 這位80后AI創(chuàng)業(yè)者,組織起一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人,他形容團(tuán)隊(duì)成員們,“很多人對(duì)做研究的渴望,遠(yuǎn)超對(duì)錢的在意。” 梁文鋒將DeepSeek定義為“硬核創(chuàng)新”,做最難的事,似乎成為他所帶領(lǐng)的DeepSeek的一致認(rèn)知。 在鯰魚的外觀之下,DeepSeek在梁文鋒眼中,內(nèi)里則滿是技術(shù)理想主義的敘事。 此前,梁文鋒曾斷言,“中國(guó)必然需要有人站到技術(shù)的前沿”。而這一次,DeepSeek先踏上浪頭,但無論是鯰魚梁文鋒,還是“技術(shù)理想主義者”梁文鋒,要回答的問題還很多、很多。 一 這次DeepSeek的出圈,總少不了與OpenAI的對(duì)比。更有網(wǎng)友調(diào)侃,“DeepSeek活成了真OpenAI(開放模型),而OpenAI活成了close AI(封閉模型)”。 實(shí)際上,奧特曼和梁文鋒,都是典型的學(xué)霸型創(chuàng)業(yè)者。 前者18歲考上斯坦福大學(xué)計(jì)算機(jī)系,大二便輟學(xué)創(chuàng)業(yè);后者畢業(yè)于浙江大學(xué),2015年成立幻方量化,在采訪中梁文鋒提到,2022年底ChatGPT風(fēng)靡時(shí),他們就開始動(dòng)手招聘了。2023年7月,梁文鋒成立了DeepSeek。 梁文鋒并不諱言O(shè)penAI對(duì)他的啟發(fā)性,甚至,他在不少地方都和奧特曼展現(xiàn)出了驚人的相似。 出售一手創(chuàng)辦的初創(chuàng)公司Loopt后,奧特曼創(chuàng)立了風(fēng)投基金Hydrazine Capital。2015年,30歲的奧特曼成為知名孵化器YC的總裁,但在AGI(通用人工智能)不被看好,融資艱難的2015年,認(rèn)定深度學(xué)習(xí)前景無量的奧特曼,卻和特斯拉創(chuàng)始人馬斯克共同創(chuàng)立了OpenAI。 梁文鋒曾是幣安的早期成員,并一手創(chuàng)辦了幻方量化,作為同樣有著投資經(jīng)歷的創(chuàng)業(yè)者,梁文鋒入局的2023年,大廠探入,許多創(chuàng)業(yè)型公司放棄了只專注通用型大模型的大方向,梁文鋒卻堅(jiān)定DeepSeek要專注基礎(chǔ)模型的研究和突破。 同樣,在早期,兜里沒錢的奧特曼,會(huì)將“一起構(gòu)建AGI”寫在招聘信息里。這個(gè)當(dāng)時(shí)可怕而遙遠(yuǎn)的目標(biāo),讓OpenAI吸引到了一大批年輕的AGI信仰者。 “年輕、有潛力”,成為奧特曼和梁文鋒共同的選人標(biāo)準(zhǔn)。 在梁文鋒看來,如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛等更重要。也正是因此,這個(gè)沒有知名技術(shù)大牛,不在播客分享創(chuàng)業(yè)感悟的純本土創(chuàng)業(yè)團(tuán)隊(duì),成了最快追上OpenAI的隊(duì)伍。 甚至,在最開始,如同成立之初以非營(yíng)利為目的的OpenAI,商業(yè)化也并未寫入DeepSeek的to do list。 在這點(diǎn)上,奧特曼與梁文鋒同樣有著一致的想法。 “OpenAI早期投資人投錢時(shí),想的一定不是我要拿回多少回報(bào),而是真的想做這個(gè)事?!痹诓稍L中,梁文鋒面對(duì)大模型燒錢的相關(guān)提問表示,如果一定要找一個(gè)商業(yè)上的理由,(一個(gè)商業(yè)公司去做一種無限投入的研究性探索),可能是找不到的,因?yàn)閯澆粊怼?strong>從商業(yè)角度來講,基礎(chǔ)研究投入回報(bào)比很低。 但“一件激動(dòng)人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因?yàn)橛幸蝗杭庇谠谏厦鎻椬鄻非娜?。?/p> 如今,梁文鋒的AGI夢(mèng)想已經(jīng)震動(dòng)了整個(gè)硅谷。 不過,曾經(jīng)以非營(yíng)利為目的的OpenAI,希望對(duì)抗大公司的AI霸權(quán),奧特曼隨后引入微軟的巨額投資。在奧特曼的主導(dǎo)下,OpenAI將成為一家真正的營(yíng)利性企業(yè)。而后來者的梁文鋒,卻始終堅(jiān)持模型開源,并希望更多人,哪怕一個(gè)小APP都可以低成本用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷。 對(duì)創(chuàng)立初便以AGI普惠全人類為使命的OpenAI來說,奧特曼曾射出這顆子彈,如今時(shí)隔10年,正中自己的眉心。 從這一點(diǎn)來看,相比起做一條鯰魚,技術(shù)理想主義者的標(biāo)簽,似乎更適合梁文鋒。 二 但不想成為鯰魚的理想主義者梁文鋒,卻意外兩次“卷到了”所有人。 第一次,DeepSeek成了引發(fā)中國(guó)大模型價(jià)格戰(zhàn)的源頭。 在被AI連續(xù)轟炸的2024年5月,DeepSeek聲名鵲起。起因是它們發(fā)布的一款名為DeepSeek V2的開源模型,堪稱價(jià)格屠夫:推理成本被降到每百萬(wàn)token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek憑借超絕性價(jià)比成了“AI界拼多多”,BAT們也被卷得坐不住,紛紛降價(jià)。中國(guó)大模型價(jià)格戰(zhàn)由此一觸即發(fā)。 首先智譜AI跟進(jìn),將入門級(jí)產(chǎn)品降價(jià),隨后字節(jié)將旗艦?zāi)P徒档胶虳eepSeek同價(jià),接著阿里、騰訊等隨即跟上。 盡管,除了同為DeepSeek創(chuàng)始人的徐進(jìn)畢業(yè)于竺可楨學(xué)院,是黃崢的學(xué)弟,DeepSeek與拼多多并無更多交集。 一心想著“讓AI變成人人可以用得起的東西”的梁文鋒,甚至詫異于大廠的跟進(jìn)動(dòng)作,畢竟“大廠的模型成本比我們高很多,所以我們沒想到會(huì)有人虧錢做這件事?!?/p> 而第二次,DeepSeek引發(fā)了硅谷大地震。 更低成本、不輸OpenAI成熟模型的效率,梁文鋒帶領(lǐng)下的DeepSeek再次坐穩(wěn)了“AI界拼多多”的寶座,并且成功出海。 目前,DeepSeek官方尚未公布訓(xùn)練推理模型R1的完整成本,但官方公布了其API定價(jià),R1每百萬(wàn)輸入tokens在1元~4元人民幣,每百萬(wàn)輸出tokens為16元人民幣。作為對(duì)比,OpenAI o1的運(yùn)行成本約為前者的30倍。 換言之,梁文鋒以不到十分之一的成本,做出了硅谷需要上億投入才能燒出的大模型。 硅谷的震動(dòng)幾乎是必然的。除了被拿來全面對(duì)標(biāo)的OpenAI,首當(dāng)其沖的是Meta。以“大模型開源之王”為title的Meta,內(nèi)部員工匿名發(fā)布消息稱,Meta的生成式AI部門正因DeepSeek處于恐慌中,甚至爆料稱尚未發(fā)布的新一代開源模型Llama 4,在基準(zhǔn)測(cè)試中已經(jīng)落后于DeepSeek。 a16z合伙人、AI大模型Mistral董事會(huì)成員 Anjney Midha更是發(fā)文說道,從斯坦福到麻省理工,DeepSeek R1幾乎一夜之間就成了美國(guó)頂尖大學(xué)研究人員的首選模型。 與此同時(shí),梁文鋒帶領(lǐng)的DeepSeek正撬起OpenAI的墻角。 企業(yè)級(jí)AI代理開發(fā)商SuperFocus的聯(lián)合創(chuàng)始人表示,相比起正在使用的OpenAI旗艦?zāi)P虶PT-4,DeepSeek提供的支持不僅相似,甚至更好。“SuperFocus可能會(huì)在未來幾周轉(zhuǎn)向DeepSeek,因?yàn)镈eepSeek可以免費(fèi)下載、在自家服務(wù)器上存儲(chǔ)和運(yùn)行,并將增加銷售產(chǎn)品的利潤(rùn)率?!北萇penAI便宜30倍的API價(jià)格,讓梁文鋒一不小心就出了海。 同時(shí),作為純本土團(tuán)隊(duì)的DeepSeek火了,梁文鋒領(lǐng)軍年輕中國(guó)團(tuán)隊(duì),無海外背景卻硬剛硅谷巨頭的敘事成了流量密碼。 三 爆火之下,梁文鋒還需要回答更多的新問題。 字母榜嘗試讓DeepSeek作為一名記者,對(duì)梁文鋒提一個(gè)問題,這是DeepSeek的回答: “DeepSeek宣稱其模型訓(xùn)練成本僅為行業(yè)1/10,但有開發(fā)者指出,這可能是通過大幅縮減模型參數(shù)規(guī)?;蛞蕾嚮梅皆缙诙诜e的廉價(jià)算力實(shí)現(xiàn)的,而非真正的技術(shù)突破。您是否承認(rèn)這種'成本優(yōu)勢(shì)’本質(zhì)是金融資源套利,而非算法創(chuàng)新?” 令人驚訝的是,這個(gè)由DeepSeek問出的問題,幾乎可以概括如今圍繞著DeepSeek的大部分爭(zhēng)議。 正如ChatGPT橫空出世讓OpenAI成為當(dāng)之無愧的AI頭部企業(yè),英偉達(dá)的GPU憑借高性能成為算力基礎(chǔ),讓黃仁勛享盡高光,現(xiàn)在,DeepSeek的R1模型,卻只能證明梁文鋒有能力做出一個(gè)和OpenAI最新模型相差無幾的模型。 在采訪中,梁文鋒不止一次地提到希望打破硅谷的科技?jí)艛?,希望站在“技術(shù)的前沿”,但做一個(gè)和OpenAI最新模型相差無幾的模型,還遠(yuǎn)談不上真正的超越,R1仍然是對(duì)OpenAI的模仿和跟隨。 DeepSeek爆火之下,沖浪達(dá)人馬斯克一直罕見地并未發(fā)表評(píng)論,卻在最近點(diǎn)贊了一則推文。 推文中提到了DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓(xùn)練。 盡管模型蒸餾是一項(xiàng)常見的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。 更不必說,盡管宣揚(yáng)自己是技術(shù)理想主義,梁文鋒的背后是量化私募巨頭幻方,是BAT之外唯一能夠儲(chǔ)備萬(wàn)張A100芯片的公司。據(jù)“財(cái)經(jīng)十一人”報(bào)道,2023年時(shí)國(guó)內(nèi)擁有超過1萬(wàn)枚GPU的企業(yè)不超過5家,其中便包括幻方。 而能夠用十分之一的成本做出同等規(guī)模的大模型,也正是基于梁文鋒的實(shí)驗(yàn)室已經(jīng)投入了數(shù)億美元做前期研究,并擁有大規(guī)模的芯片。想成為AI界拼多多,普通AI創(chuàng)業(yè)團(tuán)隊(duì)幾乎難以復(fù)現(xiàn)梁文鋒的路徑。 圖注:X上有關(guān)deepseek的meme圖,圖源:X平臺(tái) 需要肯定的是,站在OpenAI這個(gè)巨人的肩上,梁文鋒帶領(lǐng)DeepSeek實(shí)現(xiàn)了一場(chǎng)頗為驚艷的突圍,但什么時(shí)候能夠趕在OpenAI前面推出未來一代模型,如GPT-5,那時(shí)才是梁文鋒技術(shù)理想的AHA時(shí)刻。 彼時(shí),沒有OpenAI做坐標(biāo),梁文鋒還能否繼續(xù)靠低成本策略做出性能強(qiáng)大的大模型,才是等待DeepSeek的更大考驗(yàn)。 梁文鋒曾這樣介紹自己,在廣東一個(gè)五線城市長(zhǎng)大,父親是小學(xué)老師?!熬攀甏瑥V東賺錢機(jī)會(huì)很多,當(dāng)時(shí)有不少家長(zhǎng)到我家里來,家長(zhǎng)覺得讀書沒用。但現(xiàn)在回去看,觀念都變了。因?yàn)殄X不好賺了,連開出租車的機(jī)會(huì)可能都沒了。一代人的時(shí)間就變了?!?/p> 梁文鋒充滿信心,在他看來,以后的硬核創(chuàng)新會(huì)越來越多。“我們只是還需要一堆事實(shí)和一個(gè)過程?!?/strong> 如今,外界都在期待梁文鋒和DeepSeek會(huì)是那個(gè)過程之一。 參考資料: 《揭秘DeepSeek:一個(gè)更極致的中國(guó)技術(shù)理想主義故事》 暗涌Waves 《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 暗涌Waves 《DeepSeek推翻兩座大山》 字母榜 本文來自微信公眾號(hào):字母榜,作者:馬舒葉 |
|