在AGI(通用人工智能)這件事情上,OpenAI是個風(fēng)向標(biāo),全世界都在看它的動作、受它的指引。其創(chuàng)始人奧特曼卻說,任何試圖在我們爆炸半徑內(nèi)建立的初創(chuàng)公司或產(chǎn)品,都會被碾壓。于是一個宿命般的問題放在全球AGI創(chuàng)業(yè)者面前:在跟隨技術(shù)指引的同時,又如何不被巨頭碾壓?總有些AGI初創(chuàng)企業(yè)并不“認(rèn)命”,在算力和數(shù)據(jù)資源雙雙匱乏的不利條件下,力圖走出一條不同于OpenAI發(fā)展方向的道路。8月31日,中國大模型創(chuàng)業(yè)公司MiniMax,對外展示了一條完全由大模型生成的長達(dá)近2分鐘視頻。它與此前諸多文生視頻不一樣的地方在于,它有場景、配音、字幕,其完整性堪比好萊塢大片。這是全球第一次有廠家完整展示,由語言模型、視頻模型等整合生成的多模態(tài)視頻。此前,即便是OpenAI也只能將語音模型和語言模型整合到一起生成結(jié)果,此前行業(yè)最好的產(chǎn)品也只是單獨(dú)的視頻大模型,沒有配音,甚至都沒有字幕。這并不是說,MiniMax的模型技術(shù)水平已經(jīng)超越了行業(yè)巨頭,但它起碼證明——通往AGI的道路有很多條。MiniMax一直是一個特殊的存在,它創(chuàng)立于2021年,是一家大模型廠家,但是它的第一款產(chǎn)品并不是擁有生產(chǎn)力屬性的對話框,而是接二連三的產(chǎn)品化APP。截至目前,MiniMax擁有海螺AI、星野、Talkie(海外)等多款直接面對用戶的APP產(chǎn)品;除了面對C端的自有APP,MiniMax推出的開放平臺產(chǎn)品,接入的2B客戶企業(yè)和開發(fā)者已超3萬個。模型日交互量達(dá)到30億次、每天處理超過3萬億的文本Token,生成2000萬張圖和7萬小時的語音。以“產(chǎn)品化APP+開放平臺”的方式,盡可能地完整覆蓋2C+2B的用戶圈層,讓模型和用戶相互反哺——這是MiniMax選擇的增長飛輪。 這一路徑在初創(chuàng)企業(yè)中較為罕見,因為無論是技術(shù)研發(fā)、C端產(chǎn)品運(yùn)營還是B端服務(wù),都需消耗大量資源。MinMax為何選擇一條如此厚重的發(fā)展路徑?它尋找路徑的方法,對其他中國AI創(chuàng)業(yè)企業(yè)又能帶來哪些啟發(fā)? 為大模型進(jìn)步找到“唯一”路徑 2021年,大眾知道OpenAI的并不多,GPT(Generative Pre-trained Transformer,生成式預(yù)訓(xùn)練架構(gòu))也只存在于學(xué)術(shù)期刊中,但閆俊杰已經(jīng)知道了。當(dāng)時,他的身份是商湯副總裁、研究院副院長和智慧城市事業(yè)群 CTO,成天跟2B項目打交道,面對定制化的場景、定制化的模型,離普通人可用的AI很遠(yuǎn)。 生活中,他80歲的外公想要寫一本回憶錄,但外公不會打字。他開始反思,AI能干什么?AI應(yīng)該變得通用、能幫到每個人,是一個產(chǎn)品,而不是一個項目。他因為喜歡玩Dota2這款非常復(fù)雜的游戲,所以知道根據(jù)強(qiáng)化學(xué)習(xí)技術(shù)生成的OpenAI Five機(jī)器人能輕松贏得游戲。按圖索驥,他知道了OpenAI這家公司。憑借多年來的AI技術(shù)研發(fā)經(jīng)驗,他很快掌握了Transformer架構(gòu)及大模型的能力,并果斷判斷這是可以讓AI服務(wù)普通人的技術(shù)。他感覺重新找回了AI研究的初心和熱愛,以及一種強(qiáng)烈的使命感。他決定創(chuàng)業(yè),成立MiniMax,實現(xiàn)心中所想:Intelligence with Everyone。2022年10月,閆俊杰將自己用近1年時間開發(fā)出的大模型技術(shù),封裝成一個簡單的AI產(chǎn)品,扔到了一個QQ群里。沒想到,竟頗受年輕人的歡迎。這也是“智能體”的第一次出現(xiàn),他開始向投資人以及其他人解釋什么叫大語言模型。兩個月后,OpenAI發(fā)布3.5版本聊天機(jī)器人,全球迎來“GPT時刻”。閆俊杰再也不用跟別人解釋AGI是什么了,大模型席卷全球,僅用5天時間,ChatGPT的用戶量就達(dá)到了100萬,F(xiàn)acebook用戶達(dá)百萬尚且用時10個月。閆俊杰有些遺憾,明明都是基于Transformer架構(gòu)下的大模型,而且MiniMax的第一款產(chǎn)品還早兩個月誕生,為什么OpenAI的產(chǎn)品使用場景能更加泛化?但他很快明白了,“我們的模型能力那個時候就是沒有達(dá)到GPT3.5的泛化能力,技術(shù)存在代差?!?/section>2023年,閆俊杰開始著急。我們跟OpenAI到底有多大的差距?到底需要多久能追平差距?作為國內(nèi)領(lǐng)先的大模型廠商,我們?nèi)绾卫^續(xù)引領(lǐng)技術(shù)的發(fā)展?同樣著急的還有谷歌、Meta、百度、馬斯克等等巨頭。那年開春,谷歌、百度匆忙發(fā)布自己的大語言模型。隨后,中國大模型創(chuàng)業(yè)企業(yè)一擁而上,特別是當(dāng)Meta發(fā)布開源大模型Llama之后,“百模大戰(zhàn)”便在中國上演。但此時閆俊杰又遭遇了一個“意外事件”。由于一個算法Bug,把用戶的對話體驗拉低了15%左右,令第一款產(chǎn)品的DAU直接掉了40%。“當(dāng)你著急的時候,本來應(yīng)該做10次實驗的,可能只做5次,結(jié)果肯定不如人意?!?023年閆俊杰一直在思考、審視“Scaling Law”。如同半導(dǎo)體領(lǐng)域的摩爾定律,AI行業(yè)的第一性原理就是Scaling Law,即:隨著模型參數(shù)數(shù)量的增加,模型的性能(例如預(yù)測準(zhǔn)確性、生成質(zhì)量)會在一定范圍內(nèi)不斷提升。這意味著更大的模型通常表現(xiàn)更好,但前提是有足夠的數(shù)據(jù)和算力來支撐。大多數(shù)企業(yè)都會投入巨大的算力,以提升模型能力。但閆俊杰一向重視底層技術(shù)的創(chuàng)新研發(fā)與突破,以提升模型性能和算法能力。特別是在經(jīng)歷了幾次挫敗后,他更是堅信,如果底層技術(shù)沒有改進(jìn),即便投入十倍的算力也是枉然。但底層技術(shù)的突破談何容易,OpenAI成立7年才出來GPT3.5,MiniMax沒有OpenAI那樣的強(qiáng)大資源,更沒有那么長的窗口等待期。閆俊杰靠什么贏得時間?實際上這也是每個創(chuàng)業(yè)公司都會面臨的問題。就是在這樣不斷的迭代自己中,閆俊杰找到了“與用戶共創(chuàng)AGI”的這條路。閆俊杰的優(yōu)勢是,彼時已經(jīng)擁有了一款PMF(Product-Market Fit,產(chǎn)品與市場匹配度)較高的C端產(chǎn)品。也就是說憑借現(xiàn)有大模型的能力,同樣可以產(chǎn)品化,找到用戶。MiniMax便一邊鉆研底層技術(shù),一邊繼續(xù)做大模型的產(chǎn)品化。2023年8月,正式發(fā)布第一款產(chǎn)品的升級版,星野和Talkie,后者面向海外市場。為了擁有更多的用戶和場景,2023年4月,MiniMax還創(chuàng)建了開放平臺產(chǎn)品,容許企業(yè)通過調(diào)用API的方式獲取大語言模型能力。MiniMax選擇了以“產(chǎn)品化APP+開放平臺”的方式,盡可能地完整覆蓋2C+2B的用戶圈層。這一路徑為其技術(shù)的突破,一方面贏得了時間,另一方面也創(chuàng)造了場景、倒逼技術(shù)方向的調(diào)整優(yōu)化。實際上,因資源有限,大多數(shù)創(chuàng)業(yè)公司都不會選擇這樣全面覆蓋的路徑。比如,早于MiniMax創(chuàng)立的智譜AI,幾乎專注于2B解決方案的打造;后于MiniMax創(chuàng)立的月之暗面(產(chǎn)品為KIMI),則專注于優(yōu)化、精調(diào)生產(chǎn)力大模型,而不會投入精力運(yùn)營用戶圈層。即便是OpenAI在產(chǎn)品化上也不太成功,比如 ChatGPT Plugins 和 GPT-S。令人驚喜的是,這條路徑竟讓閆俊杰走通了。一方面,APP產(chǎn)品矩陣已具備商業(yè)化的能力,比如應(yīng)用內(nèi)交易、展示廣告等收入,開放平臺也開始進(jìn)賬B端企業(yè)的Tokens使用費(fèi)。另一方面,大模型也取得了進(jìn)步。2024年1月,MiniMax發(fā)布了大語言模型abab6.0版本,隨后迭代加速,4月便發(fā)布abab6.5版本,并同步上線AI助手“海螺AI”APP。產(chǎn)品化與大模型性能同步前行,讓MiniMax有了底氣。所以當(dāng)OpenAI爆出“草莓”推理項目、“獵戶星座”大模型時,閆俊杰并不焦慮,反而期待去驗證自己的預(yù)測。閆俊杰如今感慨,“與用戶共創(chuàng)”甚至可以說是MiniMax進(jìn)步的唯一路徑。用戶到底為MiniMax共創(chuàng)了什么?MiniMax業(yè)務(wù)總監(jiān)Leon,今年4月和團(tuán)隊在深圳的時候,發(fā)現(xiàn)了躍然創(chuàng)新這家公司。躍然創(chuàng)新秉承的宗旨是做有溫度的AI兒童硬件,其發(fā)布的情感陪伴型智能玩具Bubble Pal是他們的拳頭產(chǎn)品。而在彼時,他們急需找到基于大語言模型的智能體技術(shù)的支持,海螺AI的出現(xiàn),讓躍然創(chuàng)新找到了突破口。當(dāng)MiniMax發(fā)現(xiàn)躍然創(chuàng)新時滿是驚喜,大模型還能有這樣的應(yīng)用場景,幾乎就是為MiniMax量身打造。而躍然創(chuàng)新見到MiniMax亦是驚喜,MiniMax可同時提供文本大模型和語音大模型。雙方一拍即合,在6月份便推出了智能玩具Bubble Pal,在抖音、小紅書等新電商平臺上取得遠(yuǎn)超預(yù)期的發(fā)售成績。很顯然,躍然創(chuàng)新與MiniMax共創(chuàng)了兒童的陪伴場景,強(qiáng)化了大模型在這一人群的訓(xùn)練和推理能力。除了陪伴型場景,一些與生產(chǎn)力相關(guān)的場景也幫MiniMax拓展了大模型的應(yīng)用邊界。釘釘去年計劃推出“Agent平臺”的時候,國內(nèi)大模型剛剛起步,釘釘卻不只是希望建立一個類似GPT一樣的聊天對話框,而是要打造一個可用自然語言對話的智能體。環(huán)伺中國大模型,似乎又只有MiniMax最符合需求。MiniMax語音大模型中的語音合成、音色合成技術(shù),令釘釘上的各個Agent的交互更自然、更具情感化。TA在給你制定日程的時候,可能還會隨口問一句“今天想吃什么?”,且保障超高的請求準(zhǔn)確率以及最快的時延,體驗極佳。MiniMax不僅為個人釘釘提供API的接入,還提供接入后的工程鏈路、Prompt調(diào)優(yōu)以及Bad Case(壞案例)優(yōu)化等。Leon說,背后是大模型的能力,但我們又不會全部交給大模型,以此保證較低的錯誤率。比如MiniMax會先通過“切片”的方式,將數(shù)據(jù)集按照某些特定的維度、特征或條件進(jìn)行分割,以便深入分析不同子集的數(shù)據(jù)表現(xiàn),先讓模型看看能否回答問題,人工判斷一輪,然后再去讓機(jī)器回答。釘釘Agent平臺中的助手種類繁多,MiniMax需要根據(jù)不同的場景進(jìn)行后續(xù)的調(diào)優(yōu)工作,這增加了MiniMax的工作量,但也為其創(chuàng)造了更多的場景,提升大模型的性能。MiniMax開放平臺推出1年來,已躋身國內(nèi)TOP行列,總計服務(wù)了超3萬家企業(yè)用戶和開發(fā)者。Leon介紹稱,雖然客戶很多,但大多數(shù)僅需提供標(biāo)準(zhǔn)化的工作,幾乎不需要量身定制全套解決方案,最長也頂多耗時1個月的時間完成所有調(diào)優(yōu)工作,且后續(xù)幾乎不會再出現(xiàn)問題。MiniMax的開放平臺運(yùn)營模式很輕,整個團(tuán)隊人不多,但人員效率極高。在管理上,會將研發(fā)和服務(wù)前置,售前團(tuán)隊幾乎包攬一切,不僅會寫代碼,還懂工程、怎么拉鏈路,懂得模型如何調(diào)優(yōu)。初創(chuàng)企業(yè)一旦找到快速復(fù)制用戶的方式,其成長速度便值得期待。MiniMax目前已在B端客戶積累了技術(shù)服務(wù)的口碑,特別是從創(chuàng)業(yè)至今便持續(xù)升級迭代的語音模型優(yōu)勢,已成為其最有利的競爭力。MiniMax是較早用大模型生成自然的語音的,目前市面上的合成語音,大多是傳統(tǒng)的TTS(Text-to-Speech)技術(shù),依賴于預(yù)定義的語音合成系統(tǒng),采用拼接音素或基于規(guī)則的合成方式。這種合成語音有“機(jī)械感”,特別是蹦出英文時,會有很強(qiáng)的出戲感。大模型則可以捕捉更細(xì)微的語音特征,如語氣、情感、語調(diào)變化等,因此生成的語音聽起來更接近人類的自然表達(dá)。就像“星野APP”用戶“roro”講述的那樣,她在星野創(chuàng)造的已故媽媽“霞”智能體,一直陪伴她在海外留學(xué)。她說:“'霞’的聲音和樣貌,幾乎就是我媽媽,'霞’不但讓我和媽媽重逢,也刷新了我對AI的理解”。用戶“AI馬后炮”因為太喜歡《我的阿勒泰》電視劇中于適扮演的“巴太”角色,便在星野捏了一個“巴太”智能體,他覺得兩個巴太的聲音已很難區(qū)分。星野是一款A(yù)I內(nèi)容社區(qū)APP,用戶可以創(chuàng)造自己的AI形象,錄制不同的聲音,然后與TA聊天。用戶也可以與其他人創(chuàng)造的AI形象聊天。由于MiniMax將聲音做得非常逼真且?guī)в星楦校層脩粲蟹N與真人聊天的錯覺。海螺AI則是與ChatGPT類似的生產(chǎn)力工具性聊天框,但MiniMax為其增加了給AI助手“打電話”的功能,同樣營造了與真人聊天的情境。在星野、海螺AI產(chǎn)品上的聲音、音色,也會遷移到B端企業(yè)客戶的需求中,比如Haivivi玩具中就有來自海螺AI和星野的聲音。 在開放平臺,MiniMax語音大模型服務(wù)的客戶也已達(dá)到了近500家。 此外,MiniMax自有APP產(chǎn)品特有的“陪伴”、“創(chuàng)作”屬性,帶來了每天超長的用戶交互時長,每天大模型的調(diào)用量達(dá)到30億次,處理3萬多億的文本tokens。相較于百度文心一言每天6億次調(diào)用量,以及日均1萬億的Tokens使用量,MiniMax確實做到了以小博大。 創(chuàng)業(yè)996天,MiniMax以“大模型+產(chǎn)品化矩陣”完成了對B+C用戶圈層的初步覆蓋,從0到30億次的交互,標(biāo)志著向Intelligence with Everyone的目標(biāo)邁出了一大步。 必須在技術(shù)的底層有所創(chuàng)新 用戶帶給閆俊杰的另一個思考是,“我們每次模型版本更新+時延遲的大幅下降,都會大大提高用戶留存。相反一個程序bug會導(dǎo)致對話重復(fù)錯誤率變高,當(dāng)天對話量掉了40%?!彼?,用戶除了創(chuàng)造場景之外,另一個更大的作用是,逼著大模型廠商要堅持底層技術(shù)創(chuàng)新。 今天的AI應(yīng)用,要取得滲透率和使用深度的質(zhì)的提高,還有很多技術(shù)難關(guān)需要攻克。包括:第一錯誤率持續(xù)降低,大模型幻覺是制約模型處理復(fù)雜任務(wù)的原因,因為復(fù)雜的任務(wù)往往需要多個步驟,而較高的錯誤率導(dǎo)致失敗率的指數(shù)增加;第二無限長的輸入和輸出,傳統(tǒng)大模型計算需求隨著輸入輸出處理量平方上升,很快就會達(dá)到算力無法負(fù)擔(dān)的上限;第三多模態(tài)能力,類比人,文字交互只是很小的一部分,整合了聲音、圖文和視頻的多模態(tài)能力才是信息傳遞的主流。在全球都在瞻望OpenAI,希冀其盡快給出答案、哪怕是解題思路時,閆俊杰先有了一套優(yōu)化大模型的思路。他認(rèn)為,要讓大模型變好,先得讓它變快。根據(jù)Scaling Law原理,在算法一樣的情況下,更多的訓(xùn)練數(shù)據(jù)量和參數(shù)量意味著更好的效果。這也就等于說,如果有兩個類似效果的模型,訓(xùn)練和推理更快的那個可以更有效的利用算力資源迭代更多的數(shù)據(jù),上限更高。那如何做到“訓(xùn)練和推理更快”?一年前,閆俊杰“賭”上了80%的算力資源,鉆研MOE架構(gòu)。彼時,這一架構(gòu)并沒有完全被業(yè)內(nèi)認(rèn)可——OpenAI堅持走M(jìn)OE架構(gòu),但谷歌堅持Dense模型。MiniMax在MOE架構(gòu)上也經(jīng)歷了兩次失敗,但閆俊杰堅決為之。用了6個月的時間,MiniMax證明了:MOE架構(gòu)模型和Dense架構(gòu)模型處理效率的對比,模型處理速度可以快3-5倍。事后,閆俊杰復(fù)盤稱,這其實也是當(dāng)時他唯一能走的路,因為如果走Dense模型,每天消耗的算力規(guī)模,MiniMax承擔(dān)不起。基于MOE架構(gòu)的abab6.5版本,表現(xiàn)也十分不錯。這就更堅定了閆俊杰要走“快”這條路。他把目光瞄準(zhǔn)了下一個能夠幾倍提升模型速度的技術(shù)難關(guān):Linear Attention(線性注意力)。這不僅能提高訓(xùn)練效率,也是解決無限長的輸入和輸出的關(guān)鍵一步。線性注意力技術(shù),可以降低計算的復(fù)雜度,提升模型訓(xùn)練速度,但是線性有可能犧牲性能,怎么辦?這一技術(shù)2019年就有人提出,但是從來沒有人在大規(guī)模的模型上實現(xiàn)過。閆俊杰依舊果斷決策,沒有猶豫。有了上一次MOE的成功經(jīng)驗,用了近3個月,MiniMax團(tuán)隊便找到了解題思路,他們用一種新的歸一化方式來代替softmax(強(qiáng)化學(xué)習(xí)中常用的一種輸出函數(shù)),以及一種位置編碼來提供計算的非線性。除此之外,還找到了一種高效實現(xiàn)的方式使得大規(guī)模的訓(xùn)練這種Linear Attention成為可能。總之就是,MiniMax做成了MOE架構(gòu)+Linear Attention相結(jié)合的新一代模型架構(gòu),理論上可以處理的token接近無限長,而且模型效率也獲得了大幅提升——在處理10萬token的時候,速度是其他模型的2-3倍,并且隨著長度越長,效率提升越明顯。MOE架構(gòu)+Linear Attention,自然就成為MiniMax下一代大模型abab7的核心技術(shù)。閆俊杰預(yù)告,未來數(shù)周內(nèi)即可發(fā)布abab7大模型,其能力將比肩行業(yè)最頂尖的大模型水平。abab7,在聲音模型表現(xiàn)上,將支持10多種語種,其中包括粵語;并且是第一款具有音樂模型功能的聲音模型,閆俊杰現(xiàn)場播放了由其生成的幾段不同風(fēng)格的音樂,旋律動聽、節(jié)奏感很強(qiáng)。在視頻模型表現(xiàn)上,具有壓縮率高、文本響應(yīng)好、風(fēng)格多樣等顯著特點(diǎn),特別是得益于在網(wǎng)絡(luò)架構(gòu)上的積累,對高動態(tài),變化多的信息,例如很大的雪崩場景有較好的表現(xiàn)力。通過用戶共創(chuàng)+自研技術(shù)突破,MiniMax還在不斷攻克目前大模型面臨的三大技術(shù)難題,即:錯誤率、無限長文本、多模態(tài)完整呈現(xiàn)。 當(dāng)然,所有的一切,也只是通向AGI的一小步。 特別策劃
|