MiniMax M2.5 released: 80.2% in SWE-bench Verified
3 months ago
- #AI
- #Machine Learning
- #Productivity
- MiniMax推出M2.5模型——一个为现实生产力场景优化的更快、更强、更智能的版本
- M2.5在编程、智能工具调用、搜索及办公场景表现卓越,以SWE-Bench Verified(80.2%)和BrowseComp(76.3%)等基准测试最高分领跑
- 该模型具备超高性价比,100 tokens/秒版本定价1美元/小时,50 tokens/秒版本仅需0.3美元/小时
- M2.5在跨语言编程任务和架构规划方面提升显著,其训练涵盖10+种语言及20万+真实环境场景
- 增强的搜索与工具调用能力使M2.5能胜任专家级任务,决策效率显著提升
- 办公场景中,M2.5处理Word、PowerPoint和Excel任务的评估胜率达59.0%
- 相较前代M2.1速度提升37%,在保持与Claude Opus 4.6同等速度的同时成本大幅降低
- 模型提供M2.5标准版与M2.5-Lightning版双版本,满足不同速度与成本需求的智能体应用
- MiniMax Agent已集成M2.5,提供标准化办公技能模块和可定制的行业专家解决方案
- 目前MiniMax内部30%的任务由M2.5处理,新代码提交中80%由该模型自动生成