Hasty Briefsbeta

双语

MiniMax M2.5 released: 80.2% in SWE-bench Verified

3 months ago
  • #AI
  • #Machine Learning
  • #Productivity
  • MiniMax推出M2.5模型——一个为现实生产力场景优化的更快、更强、更智能的版本
  • M2.5在编程、智能工具调用、搜索及办公场景表现卓越,以SWE-Bench Verified(80.2%)和BrowseComp(76.3%)等基准测试最高分领跑
  • 该模型具备超高性价比,100 tokens/秒版本定价1美元/小时,50 tokens/秒版本仅需0.3美元/小时
  • M2.5在跨语言编程任务和架构规划方面提升显著,其训练涵盖10+种语言及20万+真实环境场景
  • 增强的搜索与工具调用能力使M2.5能胜任专家级任务,决策效率显著提升
  • 办公场景中,M2.5处理Word、PowerPoint和Excel任务的评估胜率达59.0%
  • 相较前代M2.1速度提升37%,在保持与Claude Opus 4.6同等速度的同时成本大幅降低
  • 模型提供M2.5标准版与M2.5-Lightning版双版本,满足不同速度与成本需求的智能体应用
  • MiniMax Agent已集成M2.5,提供标准化办公技能模块和可定制的行业专家解决方案
  • 目前MiniMax内部30%的任务由M2.5处理,新代码提交中80%由该模型自动生成