Claude Opus 4.1

9 months ago

Claude Opus 4.1作为Claude Opus 4的升级版本发布，重点提升了代理任务、现实世界编程和推理能力。
该模型现已面向付费Claude用户开放，可在Claude Code及Amazon Bedrock、Google Cloud Vertex AI等API平台使用，定价与Opus 4保持一致。
Opus 4.1在SWE-bench Verified测试中获得74.5%的分数，编码性能显著提升，尤其擅长多文件代码重构和调试任务。
主要改进包括：细节追踪能力增强、代理搜索优化、代码修正精度提高（避免不必要的调整或引入错误）。
官方建议Opus 4用户升级至4.1版本，开发者需通过API调用「claude-opus-4-1-20250805」模型标识符。
鼓励用户提交反馈以优化后续模型开发，未来数周内预计将有更大改进。
基准测试结果存在差异：SWE-bench Verified等测试未启用扩展思考模式，而TAU-bench、GPQA Diamond等测试启用了该模式。
文档详细说明了TAU-bench和SWE-bench等基准的测试方法，特别标注了工具链和思维模式的变化。

Hasty Briefsbeta