阿里云Qwen2.5發(fā)布！再登開源大模型王座，Qwen-Max性能逼近GPT-4o

天承辦公室 2024-09-20 發(fā)布于北京

展開全文

機(jī)器之心報(bào)道

編輯：大盤雞

人工智能領(lǐng)域再度迎來重磅消息！

2023 年 8 月，通義首次開源后迅速引起全球開發(fā)者的關(guān)注和熱議，短短一年時(shí)間內(nèi)，阿里云大模型又迎來了重要升級(jí)。

在 9 月 19 日的云棲大會(huì)上，CTO 周靖人宣布：通義千問發(fā)布新一代開源模型 Qwen2.5，開源旗艦?zāi)Ｐ?Qwen2.5-72B 性能超越 Llama 3.1-405B，再次登上全球開源大模型的王座；通義旗艦?zāi)Ｐ?Qwen-Max 全方位升級(jí)，性能已經(jīng)逼近 GPT-4o。

發(fā)布現(xiàn)場(chǎng)，圖源：澤南

通義千問憑借不斷迭代的技術(shù)和豐富的應(yīng)用場(chǎng)景，迅速崛起為開發(fā)者的熱門選擇，尤其是在中文社區(qū)中引發(fā)了廣泛關(guān)注。這次發(fā)布，模型不僅展現(xiàn)出更強(qiáng)大的代碼、數(shù)學(xué)和語言處理能力，還擁有領(lǐng)先的多模態(tài)處理和視覺智能，使其成為當(dāng)前 AI 技術(shù)領(lǐng)域的佼佼者。

百寶箱：Qwen2.5

這次，Qwen2.5 系列是一個(gè)超級(jí) AI 模型「百寶箱」，涵蓋了多個(gè)尺寸的大語言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型。每個(gè)尺寸都有基礎(chǔ)版本、指令跟隨版本和量化版本，總計(jì)上架了 100 多個(gè)模型，刷新了業(yè)界紀(jì)錄。

集合鏈接：https:///collections/Qwen/qwen25-66e81a666513e518adb90d9e

在語言模型方面，Qwen2.5 開源了 7 個(gè)尺寸：0.5B、1.5B、3B、7B、14B、32B、72B，每個(gè)都在同等參數(shù)賽道創(chuàng)造了業(yè)界最佳成績(jī)。這些型號(hào)的設(shè)定充分考慮了下游場(chǎng)景的不同需求：3B 是適配手機(jī)等端側(cè)設(shè)備的黃金尺寸；32B 是最受開發(fā)者期待的「性價(jià)比之王」，可在性能和功耗之間獲得最佳平衡。令人驚喜的是，Qwen2.5-32B 的整體表現(xiàn)甚至超越了 Qwen2-72B。

所有 Qwen2.5 系列模型都在 18 萬億（18T）tokens 的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。相比 Qwen2，整體性能提升了 18% 以上，擁有更多的知識(shí)、更強(qiáng)的編程和數(shù)學(xué)能力。旗艦?zāi)Ｐ?Qwen2.5-72B 在 MMLU-redux（通用知識(shí)）、MBPP（代碼能力）和 MATH（數(shù)學(xué)能力）等基準(zhǔn)測(cè)試中，分別取得了 86.8、88.2、83.1 的高分。72B 作為 Qwen2.5 系列的旗艦?zāi)Ｐ?，在多個(gè)核心任務(wù)上，以不到 1/5 的參數(shù)超越了擁有 4050 億巨量參數(shù)的 Llama3.1-405B。

在專項(xiàng)模型方面，用于編程的 Qwen2.5-Coder 和用于數(shù)學(xué)的 Qwen2.5-Math 都有了實(shí)質(zhì)性飛躍。Qwen2.5-Coder 在多達(dá) 5.5 萬億（5.5T）token 的編程相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練，當(dāng)天開源了 1.5B 和 7B 版本，未來還將開源 32B 版本。Qwen2.5-Math 支持使用思維鏈和工具集成推理（TIR）解決中英雙語的數(shù)學(xué)題，是迄今為止最先進(jìn)的開源數(shù)學(xué)模型系列。本次開源了 1.5B、7B、72B 三個(gè)尺寸和一款數(shù)學(xué)獎(jiǎng)勵(lì)模型 Qwen2.5-Math-RM。

Qwen2.5 模型支持高達(dá) 128K 的上下文長(zhǎng)度，最多可生成 8K 的內(nèi)容。它們還擁有強(qiáng)大的多語言能力，支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語言。

在多模態(tài)模型領(lǐng)域，備受期待的視覺語言模型 Qwen2-VL-72B 正式開源！Qwen2-VL 具備強(qiáng)大的視覺理解能力，能夠識(shí)別不同分辨率和長(zhǎng)寬比的圖片，還可以理解長(zhǎng)達(dá) 20 分鐘以上的視頻內(nèi)容。同時(shí)，它還支持自主操作手機(jī)和機(jī)器人的視覺智能功能，展現(xiàn)了高度靈活的應(yīng)用場(chǎng)景。

Qwen2-VL-72B 在權(quán)威測(cè)評(píng) LMSYS Chatbot Arena Leaderboard 成為全球得分最高的開源視覺理解模型

Qwen-Max 全方位升級(jí)

現(xiàn)在，通義官網(wǎng)和通義 APP 的后臺(tái)模型都已切換為 Qwen-Max，繼續(xù)為所有用戶免費(fèi)服務(wù)。你還可以通過阿里云百煉平臺(tái)調(diào)用 Qwen-Max 的 API，親自體驗(yàn)它的強(qiáng)大實(shí)力。

那么，Qwen-Max 到底有多厲害呢？

相比上一代模型，它在訓(xùn)練中使用了更多的訓(xùn)練數(shù)據(jù)、更大的模型規(guī)模，并進(jìn)行了更深入的人類對(duì)齊，最終實(shí)現(xiàn)了智能水平的飛躍。在 MMLU-Pro、MATH、GSM8K、MBPP、MultiPL-E、LiveCodeBench 等十多個(gè)權(quán)威基準(zhǔn)測(cè)試中，Qwen-Max 的表現(xiàn)已經(jīng)接近 GPT-4o，尤其是在數(shù)學(xué)能力和代碼能力上，甚至超越了 GPT-4o！要知道，數(shù)學(xué)和代碼所代表的推理能力可是大模型智能的核心體現(xiàn)。

更令人興奮的是，與 2023 年 4 月的初代通義千問大模型相比，Qwen-Max 的理解能力提升了 46%、數(shù)學(xué)能力提升了 75%、代碼能力提升了 102%、抗幻覺能力提升了 35%、指令遵循能力提升了 105%。還有一個(gè)更加驚喜的數(shù)據(jù)，模型與人類偏好的對(duì)齊水平實(shí)現(xiàn)了質(zhì)的飛躍，提升了 700% 以上。這意味著 Qwen-Max 不僅更聰明，還更懂你！

早鳥開售｜「端側(cè) AI 大模型開發(fā)與應(yīng)用實(shí)踐」技術(shù)論壇·上海

端側(cè)AI爆發(fā)元年，企業(yè)如何緊抓端側(cè)大模型的機(jī)遇，探索行業(yè)應(yīng)用，實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)？研發(fā)人員如何提升技能，將大模型應(yīng)用于PC、手機(jī)、家居、智能穿戴、安防、機(jī)器人等終端設(shè)備？

10月26日，論壇匯聚端側(cè)大模型領(lǐng)先技術(shù)及應(yīng)用企業(yè)代表，從理論到實(shí)踐，助您全方位掌握端側(cè)大模型部署應(yīng)用，開啟AI技術(shù)升級(jí)之路，搶占智能終端新機(jī)遇！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)