文 / 道哥 “AI具備思維了么? ”“AI應(yīng)該具備怎樣的思維能力? ”這是一直以來科技界頻繁探討并力主攻克的難題。 自從 OpenAI 發(fā)布新模型 o1-preview后,這道難題大致有了解法: 有人用門薩(MENSA)測試題“拷問”o1-preview,被它120分的智商震驚到合不攏嘴; 數(shù)學(xué)大佬陶哲軒在和o1-preview碰觸后,發(fā)現(xiàn)它竟然能成功識別出克萊姆定理; 一位天體物理學(xué)論文作者,僅用6次Prompt,就讓 o1-preview在1小時內(nèi),創(chuàng)建了代碼運行版本,相當(dāng)于他博士生期間10個月的工作量。 …… 換言之, o1-preview已經(jīng)具備了思維能力,甚至可以“三思而后行”。 據(jù)了解,o1-preview和GPT系列模型最大的區(qū)別在于,o1-preview是在思考之后解答用戶問題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無效答案,即用模仿人類思維過程的“慢思考”代替過去追求快速響應(yīng)的“快思考”。 但其實,這種思想和方法并非OpenAI的首創(chuàng),更非獨創(chuàng)。早在7月底的ISC.AI2024大會上,360集團創(chuàng)始人周鴻祎就宣布,“用基于智能體的框架打造慢思考系統(tǒng),從而增強大模型的慢思考能力”。 01 英雄所見略同 誠如前文所言,o1-preview之所以變得更強大、更聰明,其本質(zhì)是用模仿人類思維過程的“慢思考”代替過去追求快速響應(yīng)的“快思考”。 英雄所見略同。周鴻祎不僅早于OpenAI提出這一理念,且在之后多次強調(diào)類似理念。 對于o1-preview的推出,周鴻祎在其最新發(fā)布的短視頻中表示,“o1-preview不同于以往大模型用文字來訓(xùn)練,而是像自己和自己下棋,通過強化學(xué)習(xí)來實現(xiàn)這種思維鏈的能力?!?nbsp; 在周鴻祎看來,人類思維有“快思考”和“慢思考”之分??焖伎嫉奶攸c是直覺敏銳、無意識,反應(yīng)很快但精度不夠。GPT類大模型汲取海量知識,主要學(xué)習(xí)的是快思考能力,這也是為什么它們能脫口而出,但常常答非所問、“胡說八道”的原因,“就像人一樣,不假思索出口成章而不出錯的概率很小?!?nbsp; 慢思考的特點則是緩慢、有意識、有邏輯性,需要分解成詳細(xì)的步驟,好比寫一篇復(fù)雜的文章,要先列提綱,再根據(jù)提綱去搜集資料和素材,然后討論、撰寫、潤色和修改,直至定稿,“o1-preview擁有了人類慢思考的特質(zhì),在解惑答疑前會反復(fù)地琢磨、推敲,可能還會自我提問千遍,最后才給出結(jié)果?!?nbsp; 不過,盡管o1-preview在“慢思考”的加持下取得了令人驚喜的進展,但其仍然難稱完美,尚存在幻覺、運行速度較慢、成本高昂等諸多“痼疾”,也限制了其應(yīng)用范圍。 對比之下,提前意識到“慢思考”對AI重要性的360,憑借著行業(yè)首發(fā)、全棧自研的CoE(Collaboration of Experts,專家協(xié)同)技術(shù)架構(gòu)和混合大模型,在o1-preview推出之前就已實現(xiàn)應(yīng)用落地。 據(jù)了解,360在今年7月底正式發(fā)布的CoE技術(shù)架構(gòu)中,強化了“慢思考”的使用,驅(qū)動多個模型分工協(xié)同、并行工作,執(zhí)行多步推理。 并且CoE技術(shù)架構(gòu)帶來更精細(xì)的分工、更好的魯棒性、更高的效率和可解釋性和更深的泛化性,能夠加快推理速度,以及降低API接口和Token所需費用。 可以說,這一次,中美兩國的人工智能企業(yè)在研發(fā)思路上罕見地站在了同一條起跑線,并且中國企業(yè)的起跑時間還要早一些。 02 集齊龍珠,召喚“神龍” 和同業(yè)選手顯著區(qū)隔開的是,CoE技術(shù)架構(gòu)并非只接入了一家企業(yè)的模型,而是由360牽頭,百度、騰訊、阿里巴巴、智譜AI、Minimax、月之暗面等16家國內(nèi)主流大模型廠商組成“聯(lián)合艦隊”。 同時,其還接入了很多十億甚至更小參數(shù)的專家模型,讓整個系統(tǒng)更加有的放矢,更具能動性、更加智能。 雙管齊下的舉措,使CoE技術(shù)架構(gòu)輕松實現(xiàn)“量體裁衣”,達(dá)致資源、效用最大化:一邊“集齊龍珠,召喚神龍”,讓最強的模型啃最硬的“骨頭”,一邊調(diào)用更精準(zhǔn)、更具特色的小模型,解決簡單的淺層疑問。 目前,CoE架構(gòu)作為底層支撐,已在360AI搜索、360AI瀏覽器等產(chǎn)品中落地。 360AI搜索的“深入回答”模式,涉及7-15次的大模型調(diào)用,比如可能會涉及1次意圖識別模型調(diào)用,1次搜索詞改寫模型調(diào)用,5次搜索調(diào)用,1次網(wǎng)頁排序調(diào)用,1次生成主回答調(diào)用,1次生成追問調(diào)用。 由此導(dǎo)向的工作鏈路分為三步,即首先構(gòu)建意圖分類模型,對用戶的發(fā)問進行意圖識別;接著打造任務(wù)路由模型拆解問題,劃分成“簡單任務(wù)”、“多步任務(wù)”和“復(fù)雜任務(wù)”,并對多個模型進行調(diào)度;最后構(gòu)建AI工作流,使多個大模型協(xié)同運作。 這樣一來,360 AI搜索不光考慮到了任務(wù)的動態(tài)性和復(fù)雜性,還能夠根據(jù)任務(wù)的具體情況實時調(diào)整處理策略和資源分配,化解繁瑣任務(wù)時更加靈活和高效。 03 組隊較量,戰(zhàn)力更強 360AI瀏覽器中,除了上線“多模型協(xié)作”,另一大亮點便是入駐了國內(nèi)首個大模型競技平臺——模型競技場。 “大模型競技場”,同樣支持調(diào)用國內(nèi)16家主流大模型廠商的54款大模型,包括“組隊較量”、“匿名比拼”、“隨機對戰(zhàn)”等功能,幫助用戶在最短的時間獲取最優(yōu)解。 尤其是“組隊較量”功能,用戶可以自由選定3款大模型,和任意一款或兩款大模型PK。 這么做的好處顯而易見。多個大模型在同一時空激烈“賽馬”,展開就速度、耗時、效率等多個維度的量化比拼或“秀肌肉”,對用戶來說,交叉比證后,能更為直觀地評估并裁奪出最佳方案。 事實上,當(dāng)下不少國產(chǎn)大模型在單項指標(biāo)上都能打平甚至完勝GPT-4,但論整體實力,差距就顯現(xiàn)出來了。 CoE技術(shù)架構(gòu)的思路,正是改變這種“單打獨斗”的做法,構(gòu)建大模型“精英集群”、“團戰(zhàn)”打法,從而各取所長,形成“最強大腦”,迎戰(zhàn)o1-preview和GPT-4o。 同時,在“比學(xué)趕幫超”的濃厚氛圍中,碰撞出行業(yè)的一些集成標(biāo)注,提高不同模型間的兼容性,升級用戶體驗。 尊因循果,得益于底座的整合創(chuàng)新,360混合大模型在翻譯、寫作、學(xué)科考試、代碼生成等 12 項具體測評中取得了80.49分的綜合成績,大幅領(lǐng)先于GPT-4o的69.22分;特別是在“詩詞賞析”、“弱智吧”等這類比較具有中文特色的細(xì)分賽道,領(lǐng)先身位進一步擴大。 即便面對 o1-preview,360混合大模型在未經(jīng)專門優(yōu)化的情況下也展現(xiàn)出了能與之抗衡的力量。 經(jīng)過21道復(fù)雜邏輯推理題測試結(jié)果顯示,其效果與OpenAI o1-preview相當(dāng),完全超越GPT-4o,有時還能超越o1-preview。 可以說,CoE的整個流程就是在踐行人類思維過程的“慢思考”,涵蓋分析、理解、剖判等關(guān)鍵環(huán)節(jié),內(nèi)涵了愈發(fā)“類人”的傾向。 正如周鴻祎認(rèn)為的,“模型知道什么時候自己不懂,然后找方法去'查詢’或'驗證’答案,而不是依賴模型自身儲存所有知識。” 寫在最后 在AI這條賽道上,“慢思考”無疑是人工智能發(fā)展到現(xiàn)在的一大突破。 長線看,“慢思考”更是角力AI賽道的“勝負(fù)手”?!耙院蟊鹊牟皇嵌嗫炷芙o你答案,而是給的答案完不完整,這也會改變?nèi)斯ぶ悄芊?wù)的業(yè)態(tài),人工智能到最后還是要參考人類大腦的組成來構(gòu)造工作模式”,周鴻祎說。 360憑借前瞻性的技術(shù)洞察和篤行實干,尋獲一條充滿自主特色的AI發(fā)展路徑。這一路徑給中國的AI進程提供了新的思路,也使中國大模型廠商媲美甚至超越OpenAI成為可能。 |
|