Hasty Briefsbeta

双语

Evaluating Agent-Based Program Repair at Google

a year ago

#software-engineering
#LLMs
#program-repair

基于智能体的程序修复利用大语言模型（LLM），通过结合规划、工具使用和代码生成来自动修复复杂缺陷。
该论文使用谷歌问题跟踪系统中的178个缺陷（78个人工报告+100个机器报告），在企业环境中评估了基于智能体的修复方案。
类似SWE-Agent的智能体Passerine使用Gemini 1.5 Pro时，对机器报告缺陷的合理补丁率达到73%，对人工报告缺陷为25.6%。
人工检查显示，43%的机器报告缺陷和17.9%的人工报告缺陷生成的补丁与真实解决方案语义等价。
研究揭示了谷歌数据集与开源SWE-Bench在缺陷分布（语言多样性、规模、修改范围）上的显著差异。