日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

剛剛,小米開源了一個大模型

 ml_Py 2025-04-30 發(fā)布于河南

大家好,我是Ai學習的老章

剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B 

猜測是為手機端部署鋪路

下面是簡介由大模型生成,老章做了刪減和編輯


在當前大語言模型(LLM)的發(fā)展中,大多數成功的強化學習(RL)工作,包括開源研究,都依賴于相對較大的基礎模型(如 32B 參數量的模型),特別是在增強代碼推理能力方面。業(yè)界普遍認為,在小型模型中同時均衡提升數學和代碼能力是一項挑戰(zhàn)。

"我們相信,RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力,努力不僅要集中在后訓練上,還要集中在針對推理定制的預訓練策略上。"

小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰(zhàn)而生,它是一個從零開始訓練并專為推理任務設計的模型系列。通過優(yōu)化的預訓練和后訓練策略,MiMo-7B 展現出了超越許多更大模型的推理潛力。

模型文件:https:///XiaomiMiMo/MiMo-7B-SFT

預訓練:為推理而生的基礎模型

小米團隊在預訓練階段采用了多項創(chuàng)新策略,使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型:

  1. 數據處理優(yōu)化:增強文本提取工具包并應用多維數據過濾,以增加預訓練數據中的推理模式密度。同時,團隊采用多種策略生成大量多樣化的合成推理數據
  2. 三階段數據混合策略:MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練,采用精心設計的三階段數據混合策略
  3. 多 token 預測(MTP):引入多 token 預測作為額外的訓練目標,這不僅增強了模型性能,還加速了推理過程

后訓練:開創(chuàng)性的推理模型

在基礎模型訓練完成后,團隊進一步優(yōu)化了模型的推理能力:

  1. 高質量 RL 訓練數據:精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據,這些問題可以通過基于規(guī)則的驗證器進行驗證。每個問題都經過仔細清理和難度評估,以確保質量。團隊僅使用基于規(guī)則的準確性獎勵,避免潛在的獎勵黑客行為。
  2. 測試難度驅動的代碼獎勵:為了緩解具有挑戰(zhàn)性的代碼問題的稀疏獎勵問題,團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數,策略可以通過密集的獎勵信號更有效地優(yōu)化。
  3. 數據重采樣策略:實施了簡單問題的數據重采樣策略,以提高 rollout 采樣效率并穩(wěn)定策略更新,特別是在 RL 訓練的后期階段。

RL 基礎設施

為了支持高效的 RL 訓練,團隊開發(fā)了:

  1. 無縫 Rollout 引擎:加速 RL 訓練和驗證。設計集成了連續(xù) rollout、異步獎勵計算和提前終止,以最小化 GPU 空閑時間,實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。
  2. vLLM 中的 MTP 支持:在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。

實驗與結果

MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的:

  • 數學推理能力:在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優(yōu)異。

  • 代碼能力:在 LiveCodeBench v5(20240801-20250201)和 LiveCodeBench v6(20250201-20250501)上展示了強大的代碼生成和理解能力。

  • 通用推理:在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。

特別值得注意的是,MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當,這對于一個僅有 7B 參數的模型來說是一個顯著的成就。


部署

MiMo-7B 系列模型提供了多種部署選項,使其易于集成到各種應用場景中:

  1. vLLM 推理(推薦):
  • 官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理

  • 提供了詳細的示例腳本,便于開發(fā)者快速上手

  1. HuggingFace 推理
  • 提供了標準的 HuggingFace 接口,方便與現有生態(tài)系統集成

  • 簡單幾行代碼即可加載和使用模型

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/MiMo"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

推薦環(huán)境和提示

  • 推薦使用基于 vLLM 0.7.3 開發(fā)的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp

  • 建議使用空系統提示(empty system prompt)以獲得最佳性能

潛在應用場景

MiMo-7B 系列模型由于其強大的推理能力,特別適合以下應用場景:

  1. 教育輔助:解決數學問題、提供編程指導

  2. 代碼開發(fā):代碼生成、調試和優(yōu)化

  3. 科學研究:輔助復雜推理和問題求解

  4. 智能助手:需要強邏輯推理能力的對話系統

結論

小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展,特別是在小型模型中實現強大推理能力方面。通過創(chuàng)新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施,MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。

這一開源模型系列為開發(fā)強大的推理 LLM 提供了寶貴的見解,將使更廣泛的社區(qū)受益。隨著模型的開源發(fā)布,我們可以期待看到更多基于 MiMo-7B 的創(chuàng)新應用和進一步的改進。

對于研究人員和開發(fā)者來說,MiMo-7B 系列提供了一個寶貴的資源,用于探索如何在相對較小的模型中實現強大的推理能力,這對于資源受限的環(huán)境和邊緣設備上的 AI 應用具有重要意義。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個??,謝謝你看我的文章,我們下篇再見!

搭建完美的寫作環(huán)境:工具篇(12 章)圖解機器學習 - 中文版(72 張 PNG)ChatGPT 、大模型系列研究報告(50 個 PDF)108頁PDF小冊子:搭建機器學習開發(fā)環(huán)境及Python基礎 116頁PDF小冊子:機器學習中的概率論、統計學、線性代數 史上最全!371張速查表,涵蓋AI、ChatGPT、Python、R、深度學習、機器學習等

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多