Hasty Briefsbeta

双语

New #1 SOTA on Swe-bench is using Claude 3.7 and O1

a year ago

#GitHub
#AI
#Software Engineering

SWE-bench是一个用于测试AI系统自动解决GitHub问题的数据集
该数据集包含来自12个热门Python仓库的2,294个Issue-Pull Request配对
评估基于单元测试验证，以PR合并后的行为作为参考解决方案
SWE-bench Lite是经过筛选的子集，用于更低成本、更易获取的评估
SWE-bench Verified是人工标注的子集，其问题解决率上限可达100%
SWE-bench Multimodal包含来自JavaScript仓库的含视觉元素的问题
% Resolved指标表示模型解决问题的实例百分比
标记为'Open'的提交包含开源代码，但底层模型可能不开源
资源包括HuggingFace可下载数据集和用于微调的预处理数据集
SWE-bench仅限研究用途，附带可能产生意外结果的免责声明