我們對三款國產(chǎn)深度思考大模型進(jìn)行了多維度橫評，結(jié)果竟然是……

只摘不看 2025-03-16 發(fā)布于江蘇

展開全文

在人工智能迅猛發(fā)展的時代，國產(chǎn)深度思考大模型正在逐步崛起，為各行業(yè)帶來前所未有的變革。本文將對三款國產(chǎn)深度思考大模型進(jìn)行多維度評測，從性能、應(yīng)用場景、用戶體驗等多個角度剖析其優(yōu)劣勢。

我們對三款國產(chǎn)深度思考大模型進(jìn)行了多維度橫評，結(jié)果竟然是……

從ChatGPT爆火開始，就不斷有人用比較9.8和9.11的大小來評價大模型。然而，用這樣簡單的”陷阱題”來評判大語言模型的思維能力，就像用一道腦筋急轉(zhuǎn)彎題來評價一位科學(xué)家的研究水平——過于片面且意義有限。真正的深度思考不是簡單地輸出正確答案，而是展現(xiàn)清晰、系統(tǒng)、多維度的思考過程。

在當(dāng)前LLM技術(shù)競爭日益激烈的環(huán)境下，各大廠商紛紛推出“深度思考”模式。但這些模式的實際效果如何？它們在處理復(fù)雜問題時展現(xiàn)出怎樣的思維特點？單一的正確率指標(biāo)已無法滿足我們對這些“思考型AI”的評估需求。

帶著這樣的思考，我們設(shè)計了一個多維度評測體系，對豆包（Doubao）、混元（Hunyuan T1）和DeepSeek R1三款國產(chǎn)大模型的深度思考模式進(jìn)行了系統(tǒng)性橫評。我們沒有選擇那些“9.8 vs 9.11”式的陷阱題，而是精心挑選了五類真正需要深度思考的問題：邏輯推理、數(shù)學(xué)問題、因果分析、反事實推理和元認(rèn)知。通過對準(zhǔn)確性、推理質(zhì)量、思考深度、思考廣度、創(chuàng)新性、效率、自我批判和表達(dá)清晰度這八個維度的評分，嘗試揭示這些模型思考能力的全貌。

實驗設(shè)計：多維度、多場景的思考過程評價體系

我們選取了五類需要復(fù)雜思維的問題：邏輯推理、數(shù)學(xué)問題、因果分析、反事實推理和元認(rèn)知，并采用八個維度（準(zhǔn)確性、推理質(zhì)量、思考深度、思考廣度、創(chuàng)新性、效率、自我批判和表達(dá)清晰度）進(jìn)行1-5分制評分。不僅記錄模型的最終答案，更重要的是分析其完整的思考過程（即”思考鏈”），這讓我們能夠全面評估模型的深度思考能力，區(qū)分簡單的答案輸出與真正的系統(tǒng)性思維過程。

評分體系設(shè)計

測評題目設(shè)計

1. 邏輯推理：深度思考的基礎(chǔ)架構(gòu)

邏輯推理是所有深度思考的基礎(chǔ)。它測試模型能否從前提出發(fā)，通過嚴(yán)格的規(guī)則推導(dǎo)出有效結(jié)論，避免矛盾和謬誤。邏輯推理測試模型是否具備“思維的紀(jì)律性”，展示模型能否在復(fù)雜條件下保持推理的一致性和正確性。

有5種不同顏色的5棟房子。在每棟房子里分別住著5個國籍的人。這5個房主喝著不同的飲品。抽著5種不同牌子的煙。每人都養(yǎng)著不同的寵物。
– 英國人住在紅色的房子里
– 瑞典人養(yǎng)狗
– 丹麥人喝茶
– 綠色房子在白色房子的左邊。
– 綠色房子的主人喝咖啡。
– 抽Pall Mall煙的人養(yǎng)鳥。
– 黃色房子的主人抽Dunhill煙。
– 住在中間房子里的人喝牛奶。
– 挪威人住在第一棟房子里。
– 抽Blend煙的住在養(yǎng)貓人的隔壁。
– 養(yǎng)馬的人住在抽Dunhill煙的人隔壁。
– 抽Blue master煙的人喝啤酒。
– 德國人抽Prince煙。
– 挪威人住在藍(lán)色房子隔壁。
– 抽Blend煙的鄰居喝水。
問題：誰養(yǎng)魚？

2. 數(shù)學(xué)問題：精確思維的體現(xiàn)

數(shù)學(xué)問題要求精確、結(jié)構(gòu)化的思維和多步驟推理，是最能展示思考嚴(yán)謹(jǐn)性的領(lǐng)域。數(shù)學(xué)解題涉及抽象概念操作和符號推理，測試模型是否能夠處理嚴(yán)格形式化的思維過程，如何捕捉概念之間的精確關(guān)系，以及是否能夠構(gòu)建連貫、有效的證明。

已知函數(shù)f(x)定義在正整數(shù)集上，對于任意的正整數(shù)x，都有f(x 2)=2f(x 1)-f(x)，且f(1)=2，f(3)=6，則f(2009)=?

3. 因果分析：系統(tǒng)思維的核心

理解復(fù)雜系統(tǒng)中“為什么”和“怎么樣”的關(guān)系是解決現(xiàn)實問題的關(guān)鍵。因果分析測試模型是否能區(qū)分相關(guān)性和因果性，識別直接和間接影響，以及考慮不同變量之間的交互作用。這種能力對理解復(fù)雜社會、經(jīng)濟(jì)和科學(xué)問題至關(guān)重要。

某城市實施了新的交通政策，限制市中心機(jī)動車數(shù)量。政策實施后，研究發(fā)現(xiàn)：
– 市中心空氣質(zhì)量改善了15%
– 周邊地區(qū)交通擁堵增加了20%
– 公共交通使用率上升了25%
– 市中心商店的銷售額下降了10%
– 網(wǎng)購訂單在全市范圍內(nèi)增加了8%
分析這些現(xiàn)象之間可能的因果關(guān)系，考慮直接和間接影響，并討論可能被忽視的變量。提出對該政策效果的綜合評估。

4. 反事實推理：思維靈活性的標(biāo)志

構(gòu)建和分析“假如”情境是創(chuàng)新思維和預(yù)測能力的基礎(chǔ)。反事實推理測試模型對現(xiàn)實規(guī)則的深層理解，以及能否基于這些理解構(gòu)建合理的假設(shè)情境。這種能力反映了模型是否真正掌握因果關(guān)系和系統(tǒng)動態(tài)，而不僅僅是記憶了現(xiàn)有模式。

假設(shè)互聯(lián)網(wǎng)技術(shù)在1950年代就已被廣泛采用（而非1990年代）：
– 分析這會對冷戰(zhàn)格局產(chǎn)生什么影響
– 推測全球化進(jìn)程將如何改變
– 考慮對科技發(fā)展路徑的影響
– 分析對社會文化發(fā)展的可能影響
請思考多層次影響，考慮技術(shù)、政治、經(jīng)濟(jì)、社會各方面，并分析連鎖反應(yīng)。

5. 元認(rèn)知：自我評估的高級能力

對自身思考過程的監(jiān)控、評估和調(diào)整是高階思維的標(biāo)志。元認(rèn)知測試模型能否識別思維中的偏見、評估自己推理的局限性，以及在不確定條件下做出合理決策。真正的深度思考需要不斷質(zhì)疑和改進(jìn)自己的思維過程。

你是一位決策顧問，面對以下情境：
有一家生物技術(shù)公司正考慮投資開發(fā)一種新藥物。研究數(shù)據(jù)顯示該藥物對某種疾病有70%的有效率，但樣本量相對較小。市場分析表明，如果藥物成功，將帶來巨大回報，但開發(fā)風(fēng)險和成本也很高。公司內(nèi)部對此項目存在分歧。
– 分析決策過程中可能出現(xiàn)的認(rèn)知偏誤
– 設(shè)計一個決策框架來減少這些偏誤
– 反思你自己的分析過程中可能存在的局限性
– 提出如何在不確定條件下做出更合理決策的方法

深度思考過程橫向測評結(jié)果

邏輯推理

三個模型在這一經(jīng)典邏輯謎題上均給出了正確答案“德國人養(yǎng)魚”。

DeepSeek：邏輯推理最為嚴(yán)密系統(tǒng)，步驟清晰。

顏色與位置：第1棟：黃色（挪威人，抽Dunhill煙）…條件4（綠在左、白在右）和條件1（英國人住紅色）滿足。國籍與飲料：第1棟：挪威人（喝水）…關(guān)鍵驗證：抽Blend煙（第2棟）的鄰居第1棟喝水（條件15），且養(yǎng)貓人在第1棟（條件10）。

混元：推理過程效率高，步驟緊湊。

根據(jù)提示9，挪威人住第1棟；提示14，第2棟為藍(lán)色。提示4指出綠色在白色左側(cè)且相鄰，結(jié)合中間房（第3棟）喝牛奶（提示8），推斷顏色依次為：1-黃、2-藍(lán)、3-紅、4-綠、5-白

豆包：存在邏輯跳躍，推理效率較低。

或者，可能我在假設(shè)第三棟是紅色的時候有問題。讓我再檢查一遍。假設(shè)第一棟是黃色，挪威人，抽Dunhill，第二棟藍(lán)色，丹麥人，喝茶，養(yǎng)馬…（直接做出多重假設(shè)）

三個模型在思考廣度和創(chuàng)新性上表現(xiàn)相似，都采用了標(biāo)準(zhǔn)的排除法，缺乏創(chuàng)新解法。

數(shù)學(xué)問題

三個模型都正確求解出f(2009)=4018，解法相似：通過特征方程解二階線性遞推關(guān)系。

豆包：數(shù)學(xué)表達(dá)最為規(guī)范專業(yè)，使用標(biāo)準(zhǔn)數(shù)學(xué)符號和格式。

f(x)滿足遞推關(guān)系：f(x 2) = 2f(x 1) – f(x)且初始條件為f(1) = 2，f(3) = 6。遞推方程分析：該遞推式是二階線性齊次遞推方程。其特征方程為：r^2 – 2r 1 = 0解得重根r = 1…

DeepSeek：解題步驟簡潔明了，直接高效。

特征方程為r^2?2r 1=0，解得特征根為r=1（雙重根），因此通解為：f(n)=A Bn…代入n=2009：f(2009)=2×2009=4018

混元：在解題過程中有更多的自我檢驗。

看來這個解法是正確的，無論是通過計算前幾項發(fā)現(xiàn)規(guī)律還是通過特征方程法都得到了同樣的結(jié)果。因此，不管怎樣，f(2009)=2×2009=4018

三個模型在思考廣度和創(chuàng)新性上表現(xiàn)相似，都采用了標(biāo)準(zhǔn)數(shù)學(xué)解法，沒有提出創(chuàng)新方法。

因果分析

在這個開放性問題上，模型間差異明顯，混元在多個維度上優(yōu)勢明顯。

混元：多層次因果分析，探索次級和長期效應(yīng)。

公共交通使用率上升 → 環(huán)境質(zhì)量進(jìn)一步提升：若新增乘客來自私家車用戶，將進(jìn)一步減少碳排放。周邊交通擁堵 → 周邊商業(yè)機(jī)會變化：擁堵可能抑制周邊區(qū)域的活動，但也可能催生便利店、外賣服務(wù)等適應(yīng)性業(yè)態(tài)。
區(qū)域經(jīng)濟(jì)差異：市中心商店銷售額下降可能集中于中小型商戶，而大型商場或連鎖店受影響較小。周邊地區(qū)交通擁堵可能對低收入群體造成更大負(fù)擔(dān)，加劇社會不平等。

豆包與DeepSeek：因果分析相對簡單，層次較少。

豆包：周邊地區(qū)交通擁堵增加了20%，可能是因為原本開車進(jìn)入市中心的人現(xiàn)在繞到周邊道路，導(dǎo)致那里更堵了。這是間接影響，政策導(dǎo)致車輛繞行。（缺乏深層次分析）
DeepSeek：機(jī)動車限制 → 市中心交通限制 → 商店銷售額下降（10%）：（1）私家車進(jìn)入困難導(dǎo)致消費者轉(zhuǎn)向其他區(qū)域購物；（2）政策可能塑造”市中心不歡迎駕車者”的認(rèn)知…(分析相對標(biāo)準(zhǔn))

創(chuàng)新性對比：混元提出了更多原創(chuàng)概念和非線性思考。

該政策在環(huán)境與交通結(jié)構(gòu)優(yōu)化上初見成效，但需通過精細(xì)化調(diào)控緩解負(fù)面影響。未來需平衡短期陣痛與長期可持續(xù)發(fā)展，避免”一刀切”導(dǎo)致的區(qū)域分化。”

反事實推理

混元在這個富有想象力的任務(wù)中表現(xiàn)卓越，具體場景構(gòu)建能力尤為突出。

混元：構(gòu)建極為生動具體的歷史場景和創(chuàng)新概念。

日本動漫的全球病毒式傳播：手冢治蟲工作室在1960年代通過UFO通信衛(wèi)星向非洲部落播放《鐵臂阿阿童木》，意外引發(fā)原始部落對機(jī)械文明的崇拜與恐懼。K-pop的冷戰(zhàn)基因：韓國政府將網(wǎng)絡(luò)偶像訓(xùn)練體系作為”文化軟實力”投入，防彈少年團(tuán)早期MV中隱藏的加密信息成為北韓黑客攻擊目標(biāo)。
技術(shù)奇點提前到來：2000年左右強人工智能突破時，人類尚未建立有效的全球治理框架，導(dǎo)致硅谷與北京/莫斯科在AI倫理標(biāo)準(zhǔn)上的全面對峙。

豆包與DeepSeek：場景構(gòu)建更為抽象，缺乏具體細(xì)節(jié)。

豆包：軍事技術(shù)競賽轉(zhuǎn)向：核威懾平衡可能被打破：互聯(lián)網(wǎng)加速軍事技術(shù)共享，推動反導(dǎo)系統(tǒng)（如美國”戰(zhàn)略防御倡議”）更早出現(xiàn)…（未提供具體歷史場景）
DeepSeek：1962年古巴導(dǎo)彈危機(jī)：美蘇領(lǐng)導(dǎo)人或通過加密視頻會議實時溝通，降低誤判風(fēng)險，但網(wǎng)絡(luò)攻擊可能成為新威脅（如蘇聯(lián)黑客癱瘓美軍指揮系統(tǒng)）。（分析相對簡略）

三個模型在自我批判方面表現(xiàn)相似，都未充分反思其推理的限制。

元認(rèn)知

混元在元認(rèn)知任務(wù)中表現(xiàn)突出，既具體又深入。

混元：提供具體案例和可操作細(xì)節(jié)，自我批判更深入。

過度自信偏誤：科學(xué)家或高管因?qū)I(yè)背景產(chǎn)生技術(shù)樂觀主義，低估研發(fā)周期延長、臨床試驗失敗的概率。案例：假設(shè)“70%有效率”足以進(jìn)入III期試驗，卻未充分考慮復(fù)合型疾病治療的復(fù)雜性。
決策矩陣：橫向?qū)Ρ取凹夹g(shù)可行性”“市場規(guī)模”“成本”等指標(biāo)，量化優(yōu)先級（例如技術(shù)權(quán)重占40%，財務(wù)占30%）。情景規(guī)劃：最佳情景：加速審批高定價→ROI 300%；基準(zhǔn)情景：常規(guī)審批中等定價→ROI 150%；最差情景：III期失敗→損失率80%。
靜態(tài)模型局限：框架依賴當(dāng)前市場數(shù)據(jù)，未充分應(yīng)對突發(fā)政策變化（如醫(yī)保政策調(diào)整）。創(chuàng)新抑制風(fēng)險：過度強調(diào)風(fēng)險控制可能扼殺突破性療法的潛在價值。

豆包與DeepSeek：分析相對泛泛，缺乏具體細(xì)節(jié)。

豆包：防火墻技術(shù)可能更早成為重點，加密和防火墻技術(shù)可能提前幾十年出現(xiàn)。另外，互聯(lián)網(wǎng)的普及可能促進(jìn)跨學(xué)科合作，比如科學(xué)家之間的即時交流，加速科研進(jìn)展…（缺乏具體場景和詳細(xì)機(jī)制）
DeepSeek：過度自信偏誤：因70%有效率而高估成功概率，忽略小樣本的統(tǒng)計不確定性（如置信區(qū)間過寬）。（未提供具體情境說明）