New #1 SOTA on Swe-bench is using Claude 3.7 and O1
a year ago
- #GitHub
- #AI
- #Software Engineering
- SWE-bench是一个用于测试AI系统自动解决GitHub问题的数据集
- 该数据集包含来自12个热门Python仓库的2,294个Issue-Pull Request配对
- 评估基于单元测试验证,以PR合并后的行为作为参考解决方案
- SWE-bench Lite是经过筛选的子集,用于更低成本、更易获取的评估
- SWE-bench Verified是人工标注的子集,其问题解决率上限可达100%
- SWE-bench Multimodal包含来自JavaScript仓库的含视觉元素的问题
- % Resolved指标表示模型解决问题的实例百分比
- 标记为'Open'的提交包含开源代码,但底层模型可能不开源
- 资源包括HuggingFace可下载数据集和用于微调的预处理数据集
- SWE-bench仅限研究用途,附带可能产生意外结果的免责声明