Hasty Briefsbeta

双语

New #1 SOTA on Swe-bench is using Claude 3.7 and O1

a year ago
  • #GitHub
  • #AI
  • #Software Engineering
  • SWE-bench是一个用于测试AI系统自动解决GitHub问题的数据集
  • 该数据集包含来自12个热门Python仓库的2,294个Issue-Pull Request配对
  • 评估基于单元测试验证,以PR合并后的行为作为参考解决方案
  • SWE-bench Lite是经过筛选的子集,用于更低成本、更易获取的评估
  • SWE-bench Verified是人工标注的子集,其问题解决率上限可达100%
  • SWE-bench Multimodal包含来自JavaScript仓库的含视觉元素的问题
  • % Resolved指标表示模型解决问题的实例百分比
  • 标记为'Open'的提交包含开源代码,但底层模型可能不开源
  • 资源包括HuggingFace可下载数据集和用于微调的预处理数据集
  • SWE-bench仅限研究用途,附带可能产生意外结果的免责声明