Hasty Briefsbeta

双语

Benchmarking GPT-5 on 400 Real-World Code Reviews

9 months ago

#Benchmark
#AI
#Code Review

GPT-5现已面向所有用户在Qodo平台上线
Qodo的PR基准测试通过真实世界的PR任务评估大语言模型
该基准测试采用来自100多个公共仓库的400个真实PR案例
GPT-5凭借强大分析能力在代码审查性能中领先
GPT-5在缺陷覆盖、精准补丁和规则遵循方面表现突出
存在误报和标签不一致等弱点
轻量版GPT-5在开发流程中实现速度与质量的最佳平衡
基准测试凸显Gemini 2.5、Claude 4和Grok 4等AI模型的快速进步
未来将扩展更多语言支持、多文件PR及长上下文推理能力