MiniMax-M1 open-weight, large-scale hybrid-attention reasoning model
a year ago
- #AI
- #Machine Learning
- #Natural Language Processing
- MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型
- 采用混合专家架构(MoE)与闪电注意力机制
- 支持100万token的上下文长度,是DeepSeek R1的8倍
- 生成10万token时计算量仅为DeepSeek R1的25%
- 通过大规模强化学习在多领域任务上训练
- 创新性提出高效强化学习扩展算法CISPO
- 提供两个版本:MiniMax-M1-40K和MiniMax-M1-80K
- 在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型
- 测试涵盖数学、编程、软件工程等多领域
- 支持函数调用,可通过vLLM或Transformers框架部署