【原】DeepSeek-R1大戰(zhàn)豆包、Kimi，國(guó)產(chǎn)AI大模型第一花落誰(shuí)家？

雷科技 2025-02-06 發(fā)布于廣東

展開(kāi)全文

日活用戶(hù)突破2000萬(wàn)，與中國(guó)移動(dòng)、華為、金山辦公、吉利汽車(chē)等企業(yè)相繼達(dá)成合作，DeepSeek迎來(lái)了高光時(shí)刻。

在互聯(lián)網(wǎng)巨頭爭(zhēng)相進(jìn)入AI行業(yè)的今天，企業(yè)為實(shí)現(xiàn)技術(shù)領(lǐng)先，紛紛斥巨資買(mǎi)數(shù)據(jù)和算力芯片，打造萬(wàn)卡集群。然而DeepSeek卻選擇了與眾不同的以“花小錢(qián)辦大事”路線，推出的V3模型訓(xùn)練成本僅557.6萬(wàn)美元，最新的R1模型，則以V3模型為基座，號(hào)稱(chēng)能力不輸OpenAI開(kāi)發(fā)的o1大模型。

在訓(xùn)練成本僅為其他AI大模型數(shù)十分之一的前提下，DeepSeek-R1真的能夠持平o1大模型，傲視國(guó)內(nèi)諸多AI大模型嗎？

實(shí)踐出真知，小雷決定將其與國(guó)內(nèi)用戶(hù)數(shù)量較高、名氣較大的豆包、Kimi、文心一言、通義千問(wèn)四款A(yù)I大模型進(jìn)行對(duì)比，測(cè)試DeepSeek-R1是否真如宣傳中一般強(qiáng)大。

挑戰(zhàn)四大AI大模型，

DeepSeek技高一籌？

架構(gòu)優(yōu)化、算力升級(jí)后、參數(shù)量增加后，AI大模型的功能愈發(fā)豐富，值得挖掘的細(xì)節(jié)也越來(lái)越多。本次測(cè)試，小雷選擇了我們?nèi)粘Ｊ褂幂^多的內(nèi)容分析、創(chuàng)意寫(xiě)作、數(shù)學(xué)推理三個(gè)項(xiàng)目。

參與測(cè)試的五款大模型，具體版本分別為DeepSeek-R1、豆包云雀、Kimi-k1.5、文心3.5、通義千問(wèn)2.5，均可免費(fèi)使用。

內(nèi)容分析：DeepSeek-R1傲視群雄

為加快工作效率，不少職場(chǎng)人士會(huì)使用AI工具幫忙總結(jié)文檔、PDF等文件。小雷挑選了京東、第一財(cái)經(jīng)聯(lián)合發(fā)布的《2024年輕人生活方式及營(yíng)銷(xiāo)趨勢(shì)》文檔，測(cè)試各大AI大模型能否總結(jié)出重點(diǎn)內(nèi)容，幫助小雷快速了解2024年年輕消費(fèi)群體的特點(diǎn)。

此前小雷評(píng)測(cè)AI大模型時(shí)，曾吐槽AI大模型難以分析出文檔的核心內(nèi)容，導(dǎo)致輸出的結(jié)果車(chē)轱轆話(huà)來(lái)回轉(zhuǎn)，但短短三四個(gè)月時(shí)間過(guò)去，AI大模型的文檔總結(jié)能力已得到了飛躍性的提升。

本輪測(cè)試中，除了通義千問(wèn)沒(méi)有明顯進(jìn)步，總結(jié)的內(nèi)容過(guò)于簡(jiǎn)略，信息缺失嚴(yán)重外，其他幾款大模型均表現(xiàn)出色，尤其是豆包和Kimi，不但總結(jié)出了2024年的十大趨勢(shì)，還對(duì)2025年的生活方式趨勢(shì)展望進(jìn)行了歸類(lèi)。同時(shí)，Kimi還指出，90后和00后消費(fèi)占比過(guò)半，強(qiáng)調(diào)了年輕消費(fèi)群體的重要性。文心一言表現(xiàn)則中規(guī)中矩，總結(jié)出了2024年的十大趨勢(shì)，卻忽略了2025年展望的相關(guān)內(nèi)容。

（圖源：通義千問(wèn)截圖）

作為本次評(píng)測(cè)的主角，DeepSeek-R1表現(xiàn)更為出色，在總結(jié)出的每一個(gè)趨勢(shì)下，還會(huì)加入一些數(shù)據(jù)或產(chǎn)品作為事例，與觀點(diǎn)互相印證，增強(qiáng)內(nèi)容的可靠性。許多AI撰寫(xiě)的文章能夠一眼認(rèn)出，原因就在于AI生成的內(nèi)容較為空虛，沒(méi)能落到實(shí)處，經(jīng)常缺乏例證，DeepSeek-R1顯然已進(jìn)入了更高層次。

（圖源：DeepSeek截圖）

總的來(lái)說(shuō)，本輪測(cè)試中DeepSeek-R1證明了自己名副其實(shí)，表現(xiàn)超越其他四款A(yù)I大模型。而另外四款A(yù)I大模型中，豆包和Kimi的表現(xiàn)則明顯高出一個(gè)層次，免費(fèi)版的文心3.5表現(xiàn)一般，通義千問(wèn)則表現(xiàn)較差。

創(chuàng)意內(nèi)容撰寫(xiě)：DeepSeek再勝一場(chǎng)

2月5日，小說(shuō)平臺(tái)閱文集團(tuán)和數(shù)字出版社中文在線接連宣布，已接入DeepSeek-R1，將通過(guò)AI提高作者的創(chuàng)作效率，但AI真的能夠取代網(wǎng)文作者嗎？

小雷要求AI大模型以古龍風(fēng)格寫(xiě)一篇5000字到10000字的武俠小說(shuō)，并輸入大綱：

天南劍宗第一高手葉飛霜與太玄門(mén)掌門(mén)慕容宸約戰(zhàn)華山之巔，雙方各帶本門(mén)弟子助陣。慕容宸卻暗中與五大黑道勢(shì)力合作，企圖徹底消滅天南劍宗。
然而天南劍宗實(shí)則為六扇門(mén)安插在江湖的勢(shì)力，目的便是借助此次門(mén)派約戰(zhàn)引出黑道勢(shì)力，并將其一舉消滅。在黑道勢(shì)力聯(lián)手太玄門(mén)圍攻天南劍宗弟子時(shí)，六扇門(mén)大軍背后包抄，徹底消滅了為禍一方的黑道勢(shì)力和太玄門(mén)。

與此前限定范圍的測(cè)試不同，寫(xiě)武俠小說(shuō)雖有大綱限制，但可發(fā)揮空間極大，各大AI大模型之間的差距和風(fēng)格也會(huì)表現(xiàn)出較為明顯的差異。

本輪測(cè)試中，豆包和Kimi在撰寫(xiě)時(shí)，分別為其取名為《劍影風(fēng)云錄》和《龍影霜華錄》，與古龍大多數(shù)小說(shuō)的取名風(fēng)格并不相符，反而更像梁羽生的習(xí)慣。DeepSeek-R1、文心一言并未為小說(shuō)取名，通義千問(wèn)則是簡(jiǎn)單地命名為《華山之巔》。

（圖源：豆包截圖）

內(nèi)容方面，通義千問(wèn)依然是倒數(shù)，缺乏細(xì)節(jié)描寫(xiě)和轉(zhuǎn)折，小雷未提到的人名或幫派名稱(chēng)，通義千問(wèn)也沒(méi)有主動(dòng)加入任何一個(gè)。Kimi生成的內(nèi)容質(zhì)量更好一些，細(xì)節(jié)較為豐富，對(duì)于大綱的理解也更加到位，但與通義千問(wèn)相同，僅僅是在大綱原定的人物著筆。

DeepSeek-R1、文心一言、豆包生成的內(nèi)容質(zhì)量更好，人物、招式、門(mén)派名稱(chēng)齊全，且劇情存在不少轉(zhuǎn)折，還主動(dòng)豐富了細(xì)節(jié)。例如DeepSeek-R1撰寫(xiě)的小說(shuō)中，兩位主人公原本是好朋友，因女人反目成仇，為續(xù)寫(xiě)埋下了伏筆；文心一言生成的內(nèi)容中，葉飛霜在戰(zhàn)斗中差點(diǎn)走火入魔，得到師兄相助才反敗為勝；豆包則主動(dòng)續(xù)寫(xiě)了一段內(nèi)容，加入了葉飛霜功成名就后，被身邊摯友背叛的情節(jié)。

（圖源：DeepSeek截圖）

遺憾的是，文心一言生成的內(nèi)容忽視了大綱中的六扇門(mén)，將故事完全寫(xiě)成了江湖恩怨，豆包續(xù)寫(xiě)的內(nèi)容反派刻畫(huà)太少，導(dǎo)致小雷對(duì)其的評(píng)分稍微降低了一些。

這一輪測(cè)試DeepSeek-R1的表現(xiàn)依然遠(yuǎn)遠(yuǎn)領(lǐng)先其他AI大模型，但并不是其他幾款A(yù)I大模型表現(xiàn)不好，文心一言和豆包的表現(xiàn)已經(jīng)超過(guò)了小雷的預(yù)期，只是DeepSeek-R1的表現(xiàn)太好了，有情感糾葛、劇情轉(zhuǎn)折，尤其是結(jié)尾部分的內(nèi)容，頗有古龍遺風(fēng)。

現(xiàn)階段AI大模型寫(xiě)小說(shuō)依然會(huì)有些吃力，需要用戶(hù)盡可能將大綱細(xì)化。小雷匆忙想出的大綱過(guò)于籠統(tǒng)，或許是通義千問(wèn)和Kimi表現(xiàn)不好的原因之一。

數(shù)學(xué)推理：AI大模型永遠(yuǎn)的痛

2024年蘋(píng)果工程師曾發(fā)表了一篇論文，吐槽AI大模型并沒(méi)有真實(shí)的數(shù)學(xué)推理能力，AI企業(yè)的宣傳存在夸大成分。隨后，各大AI企業(yè)紛紛以“復(fù)雜推理”為噱頭，陸續(xù)推出了全新的大模型版本。然而數(shù)月時(shí)間過(guò)去，AI大模型真的具備推理能力了嗎？

本輪測(cè)試小雷選擇的數(shù)學(xué)題是2024年高考一卷第十四題，具體內(nèi)容為：

甲、乙兩人各有四張卡片，每張卡片上標(biāo)有一個(gè)數(shù)字，甲的卡片上分別標(biāo)有數(shù)字1，3，5，7，乙的卡片上分別標(biāo)有數(shù)字2，4，6，8，兩人進(jìn)行四輪比賽，在每輪比賽中，兩人各自從自己持有的卡片中隨機(jī)選一張，并比較所選卡片上數(shù)字的大小，數(shù)字大的人得1分，數(shù)字小的人得0分，然后各自棄置此輪所選的卡片棄置的卡片在此后輪次中不能使用則四輪比賽后，甲的總得分不小于2的概率為？（正確答案：1/2）

站在人類(lèi)的角度上，這道題的難度其實(shí)并不高，哪怕將每一種可能全部列出來(lái)再計(jì)算，所需的時(shí)間也不會(huì)特別多。然而在AI大模型眼中，這道題卻是難上了天，DeepSeek-R1、豆包給出的答案都是17/24，Kimi、文心一言、通義千問(wèn)給出的答案分別是1971/4096、243/256、551/576，居然再一次全部陣亡。

（圖源：DeepSeek截圖）

隨后小雷又用OpenAI的o1、o3 mini、GPT-4o三款大模型進(jìn)行了計(jì)算，這三款大模型都算出了正確答案，但細(xì)節(jié)上也存在一些問(wèn)題，如o1模型輸出內(nèi)容時(shí)出現(xiàn)了2=1/2，但不影響其計(jì)算出了正確答案。該情況表明，在數(shù)學(xué)推理方面，DeepSeek-R1與OpenAI旗下的大模型可能還有一定的差距。

（圖源：o1大模型截圖）

最有趣的不是這些離譜的答案，而是AI大模型的推理過(guò)程，DeepSeek-R1和Kimi-k1.5會(huì)不斷打斷自己的思考過(guò)程，選擇新的方案。數(shù)學(xué)推理依然是當(dāng)前AI大模型難以攻克的關(guān)隘，前兩項(xiàng)測(cè)試領(lǐng)先其他國(guó)產(chǎn)AI大模型的DeepSeek-R1，也在本輪測(cè)試中未能拉開(kāi)差距。

盛名之下無(wú)虛士，

DeepSeek的榮耀實(shí)至名歸

2024年12月，DeepSeek-V3大模型剛上線之時(shí)，小雷便對(duì)其進(jìn)行了測(cè)試。當(dāng)時(shí)小雷的評(píng)價(jià)是，DeepSeek-V3在內(nèi)容總結(jié)、文字生成方面能夠媲美豆包、Kimi，但功能豐富性遠(yuǎn)不及其他AI智能體。

僅一個(gè)多月時(shí)間過(guò)去，基于V3大模型調(diào)整的R1大模型就實(shí)現(xiàn)了質(zhì)的飛躍，在內(nèi)容總結(jié)、文字生成方面相較赫赫有名的豆包、Kimi、文心一言、通義千問(wèn)等AI大模型居然領(lǐng)先不少。當(dāng)然，數(shù)學(xué)推理方面大家還是一樣地“菜”，OpenAI仍處于領(lǐng)先地位。

DeepSeek-R1僅僅做到能力強(qiáng)，無(wú)法造成這么大的影響，最關(guān)鍵的是其訓(xùn)練成本大約只有600萬(wàn)美元，遠(yuǎn)低于GPT-4，預(yù)計(jì)只有GPT-5的1/200甚至更低。

（圖源：豆包AI生成）

過(guò)去我們的認(rèn)知中，提升AI大模型的行業(yè)需要堆算力、買(mǎi)數(shù)據(jù)，AI企業(yè)也確實(shí)在這樣做，如小米要建萬(wàn)卡集群、字節(jié)跳動(dòng)計(jì)劃在2025年投入400億元購(gòu)買(mǎi)AI算力芯片。Macquarie分析師質(zhì)疑DeepSeek隱瞞了開(kāi)發(fā)成本，經(jīng)過(guò)他們的計(jì)算，R1大模型的訓(xùn)練成本應(yīng)該在26億美元左右。

DeepSeek卻告訴我們，只需要數(shù)百萬(wàn)美元，折合人民幣不到9位數(shù)，就能訓(xùn)練出媲美OpenAI o1大模型的產(chǎn)品。因DeepSeek-R1的沖擊，最近一段時(shí)間全球算力芯片主要提供者NVIDIA股價(jià)一路狂跌，近兩天雖有所回暖，但依然未能回到巔峰時(shí)期。

借助DeepSeek-R1的卓越表現(xiàn)，DeepSeek瞬間成為了AI行業(yè)的香餑餑，與各行各業(yè)巨頭達(dá)成合作，甚至在工業(yè)AI領(lǐng)域?qū)嵙Τ旱娜A為，也讓小藝接入了DeepSeek-R1。因用戶(hù)數(shù)量太多，近期DeepSeek官網(wǎng)頻頻出現(xiàn)服務(wù)器繁忙，API調(diào)用充值入口也因人數(shù)太多被關(guān)閉。

DeepSeek-R1訓(xùn)練和推理成本雖低，可大量用戶(hù)涌入，DeepSeek當(dāng)前擁有的算力，已無(wú)法滿(mǎn)足用戶(hù)的需求。中國(guó)企業(yè)最擅長(zhǎng)的就是從1到正無(wú)窮，DeepSeek指明了道路，其他AI企業(yè)將快速跟上。DeepSeek若想留住這波流量，增加算力規(guī)模、提高用戶(hù)體驗(yàn)迫在眉睫。

End