Hasty Briefsbeta

双语

MiniMax-M1 open-weight, large-scale hybrid-attention reasoning model

a year ago

#AI
#Machine Learning
#Natural Language Processing

MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型
采用混合专家架构(MoE)与闪电注意力机制
支持100万token的上下文长度，是DeepSeek R1的8倍
生成10万token时计算量仅为DeepSeek R1的25%
通过大规模强化学习在多领域任务上训练
创新性提出高效强化学习扩展算法CISPO
提供两个版本：MiniMax-M1-40K和MiniMax-M1-80K
在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型
测试涵盖数学、编程、软件工程等多领域
支持函数调用，可通过vLLM或Transformers框架部署