Xiaomi unveils open-source AI reasoning model MiMo
a year ago
- #reasoning
- #language-models
- #machine-learning
- MiMo-7B是为推理任务设计的系列模型,其表现甚至优于更大的32B模型
- 该系列模型通过预训练与训练后策略的双重优化来增强推理能力
- 预训练优化包含增强型数据预处理、多维数据过滤和三阶段数据混合策略
- 训练后阶段采用基于规则的准确率奖励机制和测试难度驱动的代码奖励,以缓解稀疏奖励问题
- 研发的无缝部署引擎显著加速了强化学习训练过程
- MiMo-7B系列包含基础版、SFT版和RL版,其中RL版性能对标OpenAI o1-mini
- 基准测试显示MiMo-7B-RL在数学与代码推理任务中表现突出
- 模型已在Hugging Face开源,支持通过vLLM分支版本进行推理