Evaluating Agent-Based Program Repair at Google
a year ago
- #software-engineering
- #LLMs
- #program-repair
- 基于智能体的程序修复利用大语言模型(LLM),通过结合规划、工具使用和代码生成来自动修复复杂缺陷。
- 该论文使用谷歌问题跟踪系统中的178个缺陷(78个人工报告+100个机器报告),在企业环境中评估了基于智能体的修复方案。
- 类似SWE-Agent的智能体Passerine使用Gemini 1.5 Pro时,对机器报告缺陷的合理补丁率达到73%,对人工报告缺陷为25.6%。
- 人工检查显示,43%的机器报告缺陷和17.9%的人工报告缺陷生成的补丁与真实解决方案语义等价。
- 研究揭示了谷歌数据集与开源SWE-Bench在缺陷分布(语言多样性、规模、修改范围)上的显著差异。