這不是危言聳聽!英文大模型發(fā)展如火如荼,中文大模型卻不被重視。在英文基座大模型侵蝕全部領(lǐng)地之前,中國必須建設(shè)自主安全的中文大模型生態(tài)。 眾所周知的是,漢藏語系與印歐語系存在巨大差異,但國內(nèi)的AI大模型訓(xùn)練很多卻以英文為起點(diǎn),要讓大模型成為更能推動(dòng)國內(nèi)經(jīng)濟(jì)發(fā)展和科技創(chuàng)新的工具,打造中文大模型生態(tài)刻不容緩。要把主動(dòng)權(quán)牢牢把握在我們手中。 慶幸的是,已經(jīng)有國內(nèi)企業(yè)這么做了。去年,阿里云就推出了首個(gè)中文AI模型社區(qū)魔搭,現(xiàn)在已經(jīng)聚集了1000多個(gè)優(yōu)質(zhì)AI模型。最近,阿里云又開源了70億參數(shù)規(guī)模的通義千問大模型,包括基座模型Qwen-7B和對話模型Qwen-7B-Chat,供外界免費(fèi)使用。且在多個(gè)權(quán)威基準(zhǔn)測評中,通義千問Qwen-7B預(yù)訓(xùn)練模型的中文能力都遠(yuǎn)超國內(nèi)外同等規(guī)模開源模型。 中文博大精深,中文大模型可以更好地理解復(fù)雜的中文專業(yè)術(shù)語,實(shí)現(xiàn)精準(zhǔn)的輸出,提升效率。從國家角度看,建設(shè)自主安全的中文大模型開源生態(tài)是中國人工智能發(fā)展的重要一步,提高中國在人工智能領(lǐng)域的競爭力。 然而,當(dāng)前中文大語言模型數(shù)據(jù)集稀缺是事實(shí),希望有更多阿里云這樣的科技企業(yè)加大研發(fā)投入,構(gòu)筑中文大模型的技術(shù)護(hù)城河才行! ![]() ![]() ![]() |
|