【原】剛剛，小米開源了一個大模型

ml_Py 2025-04-30 發(fā)布于河南

展開全文

大家好，我是Ai學習的老章

剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B

猜測是為手機端部署鋪路

下面是簡介由大模型生成，老章做了刪減和編輯

在當前大語言模型（LLM）的發(fā)展中，大多數成功的強化學習（RL）工作，包括開源研究，都依賴于相對較大的基礎模型（如 32B 參數量的模型），特別是在增強代碼推理能力方面。業(yè)界普遍認為，在小型模型中同時均衡提升數學和代碼能力是一項挑戰(zhàn)。

"我們相信，RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力，努力不僅要集中在后訓練上，還要集中在針對推理定制的預訓練策略上。"

小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰(zhàn)而生，它是一個從零開始訓練并專為推理任務設計的模型系列。通過優(yōu)化的預訓練和后訓練策略，MiMo-7B 展現出了超越許多更大模型的推理潛力。

模型文件：https:///XiaomiMiMo/MiMo-7B-SFT

預訓練：為推理而生的基礎模型

小米團隊在預訓練階段采用了多項創(chuàng)新策略，使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型：

數據處理優(yōu)化：增強文本提取工具包并應用多維數據過濾，以增加預訓練數據中的推理模式密度。同時，團隊采用多種策略生成大量多樣化的合成推理數據
三階段數據混合策略：MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練，采用精心設計的三階段數據混合策略
多 token 預測（MTP）：引入多 token 預測作為額外的訓練目標，這不僅增強了模型性能，還加速了推理過程

后訓練：開創(chuàng)性的推理模型

在基礎模型訓練完成后，團隊進一步優(yōu)化了模型的推理能力：

高質量 RL 訓練數據：精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據，這些問題可以通過基于規(guī)則的驗證器進行驗證。每個問題都經過仔細清理和難度評估，以確保質量。團隊僅使用基于規(guī)則的準確性獎勵，避免潛在的獎勵黑客行為。
測試難度驅動的代碼獎勵：為了緩解具有挑戰(zhàn)性的代碼問題的稀疏獎勵問題，團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數，策略可以通過密集的獎勵信號更有效地優(yōu)化。
數據重采樣策略：實施了簡單問題的數據重采樣策略，以提高 rollout 采樣效率并穩(wěn)定策略更新，特別是在 RL 訓練的后期階段。

RL 基礎設施

為了支持高效的 RL 訓練，團隊開發(fā)了：

無縫 Rollout 引擎：加速 RL 訓練和驗證。設計集成了連續(xù) rollout、異步獎勵計算和提前終止，以最小化 GPU 空閑時間，實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。
vLLM 中的 MTP 支持：在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。

實驗與結果

MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的：

數學推理能力：在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優(yōu)異。
代碼能力：在 LiveCodeBench v5（20240801-20250201）和 LiveCodeBench v6（20250201-20250501）上展示了強大的代碼生成和理解能力。
通用推理：在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。

特別值得注意的是，MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當，這對于一個僅有 7B 參數的模型來說是一個顯著的成就。

部署

MiMo-7B 系列模型提供了多種部署選項，使其易于集成到各種應用場景中：

vLLM 推理（推薦）：

官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理
提供了詳細的示例腳本，便于開發(fā)者快速上手

HuggingFace 推理：

提供了標準的 HuggingFace 接口，方便與現有生態(tài)系統集成
簡單幾行代碼即可加載和使用模型

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/MiMo"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))