Hasty Briefsbeta

双语

Claude Opus 4.1

9 months ago
  • #AI
  • #Machine Learning
  • #Coding
  • Claude Opus 4.1作为Claude Opus 4的升级版本发布,重点提升了代理任务、现实世界编程和推理能力。
  • 该模型现已面向付费Claude用户开放,可在Claude Code及Amazon Bedrock、Google Cloud Vertex AI等API平台使用,定价与Opus 4保持一致。
  • Opus 4.1在SWE-bench Verified测试中获得74.5%的分数,编码性能显著提升,尤其擅长多文件代码重构和调试任务。
  • 主要改进包括:细节追踪能力增强、代理搜索优化、代码修正精度提高(避免不必要的调整或引入错误)。
  • 官方建议Opus 4用户升级至4.1版本,开发者需通过API调用「claude-opus-4-1-20250805」模型标识符。
  • 鼓励用户提交反馈以优化后续模型开发,未来数周内预计将有更大改进。
  • 基准测试结果存在差异:SWE-bench Verified等测试未启用扩展思考模式,而TAU-bench、GPQA Diamond等测试启用了该模式。
  • 文档详细说明了TAU-bench和SWE-bench等基准的测试方法,特别标注了工具链和思维模式的变化。