MiniMax M2.5 released: 80.2% in SWE-bench Verified

3 months ago

MiniMax推出M2.5模型——一个为现实生产力场景优化的更快、更强、更智能的版本
M2.5在编程、智能工具调用、搜索及办公场景表现卓越，以SWE-Bench Verified（80.2%）和BrowseComp（76.3%）等基准测试最高分领跑
该模型具备超高性价比，100 tokens/秒版本定价1美元/小时，50 tokens/秒版本仅需0.3美元/小时
M2.5在跨语言编程任务和架构规划方面提升显著，其训练涵盖10+种语言及20万+真实环境场景
增强的搜索与工具调用能力使M2.5能胜任专家级任务，决策效率显著提升
办公场景中，M2.5处理Word、PowerPoint和Excel任务的评估胜率达59.0%
相较前代M2.1速度提升37%，在保持与Claude Opus 4.6同等速度的同时成本大幅降低
模型提供M2.5标准版与M2.5-Lightning版双版本，满足不同速度与成本需求的智能体应用
MiniMax Agent已集成M2.5，提供标准化办公技能模块和可定制的行业专家解决方案
目前MiniMax内部30%的任务由M2.5处理，新代码提交中80%由该模型自动生成

Hasty Briefsbeta