Hasty Briefsbeta

双语

MiniMax-M1 open-weight, large-scale hybrid-attention reasoning model

a year ago
  • #AI
  • #Machine Learning
  • #Natural Language Processing
  • MiniMax-M1是全球首个开放权重的大规模混合注意力推理模型
  • 采用混合专家架构(MoE)与闪电注意力机制
  • 支持100万token的上下文长度,是DeepSeek R1的8倍
  • 生成10万token时计算量仅为DeepSeek R1的25%
  • 通过大规模强化学习在多领域任务上训练
  • 创新性提出高效强化学习扩展算法CISPO
  • 提供两个版本:MiniMax-M1-40K和MiniMax-M1-80K
  • 在复杂任务上超越DeepSeek-R1、Qwen3-235B等模型
  • 测试涵盖数学、编程、软件工程等多领域
  • 支持函数调用,可通过vLLM或Transformers框架部署