 大家好,我是Ai學習的老章 剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B 猜測是為手機端部署鋪路 下面是簡介由大模型生成,老章做了刪減和編輯
在當前大語言模型(LLM)的發(fā)展中,大多數成功的強化學習(RL)工作,包括開源研究,都依賴于相對較大的基礎模型(如 32B 參數量的模型),特別是在增強代碼推理能力方面。業(yè)界普遍認為,在小型模型中同時均衡提升數學和代碼能力是一項挑戰(zhàn)。 "我們相信,RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力,努力不僅要集中在后訓練上,還要集中在針對推理定制的預訓練策略上。"
小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰(zhàn)而生,它是一個從零開始訓練并專為推理任務設計的模型系列。通過優(yōu)化的預訓練和后訓練策略,MiMo-7B 展現出了超越許多更大模型的推理潛力。 模型文件:https:///XiaomiMiMo/MiMo-7B-SFT 預訓練:為推理而生的基礎模型小米團隊在預訓練階段采用了多項創(chuàng)新策略,使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型: - 數據處理優(yōu)化:增強文本提取工具包并應用多維數據過濾,以增加預訓練數據中的推理模式密度。同時,團隊采用多種策略生成大量多樣化的合成推理數據
- 三階段數據混合策略:MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練,采用精心設計的三階段數據混合策略
- 多 token 預測(MTP):引入多 token 預測作為額外的訓練目標,這不僅增強了模型性能,還加速了推理過程
后訓練:開創(chuàng)性的推理模型在基礎模型訓練完成后,團隊進一步優(yōu)化了模型的推理能力: - 高質量 RL 訓練數據:精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據,這些問題可以通過基于規(guī)則的驗證器進行驗證。每個問題都經過仔細清理和難度評估,以確保質量。團隊僅使用基于規(guī)則的準確性獎勵,避免潛在的獎勵黑客行為。
- 測試難度驅動的代碼獎勵:為了緩解具有挑戰(zhàn)性的代碼問題的稀疏獎勵問題,團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數,策略可以通過密集的獎勵信號更有效地優(yōu)化。
- 數據重采樣策略:實施了簡單問題的數據重采樣策略,以提高 rollout 采樣效率并穩(wěn)定策略更新,特別是在 RL 訓練的后期階段。
RL 基礎設施為了支持高效的 RL 訓練,團隊開發(fā)了: - 無縫 Rollout 引擎:加速 RL 訓練和驗證。設計集成了連續(xù) rollout、異步獎勵計算和提前終止,以最小化 GPU 空閑時間,實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。
- vLLM 中的 MTP 支持:在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。
實驗與結果MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的: 數學推理能力:在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優(yōu)異。 代碼能力:在 LiveCodeBench v5(20240801-20250201)和 LiveCodeBench v6(20250201-20250501)上展示了強大的代碼生成和理解能力。 通用推理:在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。
特別值得注意的是,MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當,這對于一個僅有 7B 參數的模型來說是一個顯著的成就。 
部署MiMo-7B 系列模型提供了多種部署選項,使其易于集成到各種應用場景中:
官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理
提供了標準的 HuggingFace 接口,方便與現有生態(tài)系統集成
from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer
model_path = "/path/to/MiMo" model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path) inputs = tokenizer(["Today is"], return_tensors='pt') output = model.generate(**inputs, max_new_tokens = 100) print(tokenizer.decode(output.tolist()[0]))
推薦環(huán)境和提示推薦使用基于 vLLM 0.7.3 開發(fā)的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp 建議使用空系統提示(empty system prompt)以獲得最佳性能
潛在應用場景MiMo-7B 系列模型由于其強大的推理能力,特別適合以下應用場景:
結論小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展,特別是在小型模型中實現強大推理能力方面。通過創(chuàng)新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施,MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。 這一開源模型系列為開發(fā)強大的推理 LLM 提供了寶貴的見解,將使更廣泛的社區(qū)受益。隨著模型的開源發(fā)布,我們可以期待看到更多基于 MiMo-7B 的創(chuàng)新應用和進一步的改進。 對于研究人員和開發(fā)者來說,MiMo-7B 系列提供了一個寶貴的資源,用于探索如何在相對較小的模型中實現強大的推理能力,這對于資源受限的環(huán)境和邊緣設備上的 AI 應用具有重要意義。 制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個??,謝謝你看我的文章,我們下篇再見! 搭建完美的寫作環(huán)境:工具篇(12 章)圖解機器學習 - 中文版(72 張 PNG)ChatGPT 、大模型系列研究報告(50 個 PDF)108頁PDF小冊子:搭建機器學習開發(fā)環(huán)境及Python基礎 116頁PDF小冊子:機器學習中的概率論、統計學、線性代數 史上最全!371張速查表,涵蓋AI、ChatGPT、Python、R、深度學習、機器學習等
|