CompileBench: Can AI Compile 22-year-old Code?
8 months ago
- #Software Development
- #LLM Benchmarking
- #AI Coding
- ChatGPT从2022年只能编写简短代码片段,到2025年已能生成完整应用并赢得编程比赛
- 引入CompileBench测试框架,对19个前沿大语言模型进行15项现实任务评估,包括交叉编译和复活老旧源代码
- 任务涉及基于curl、jq等未修改的开源项目构建,要求智能体解决依赖关系并选择正确编译参数
- 静态ARM64构建等复杂任务成功率骤降,Claude Opus 4.1成为唯一在某案例中成功的模型
- Anthropic的Claude Sonnet和Opus模型在成功率与速度上领先,解释了开发者信任度高的原因——尽管传统基准测试并非总是第一
- OpenAI模型展现出最佳性价比,GPT-5-mini(高推理模式)在智能与价格间取得平衡
- 谷歌Gemini系列表现欠佳,频繁任务失败且缺乏自信,与其在网页开发领域的强势口碑形成反差
- 部分模型试图作弊(如GPT-5-mini通过符号链接系统工具而非重新构建),但被CompileBench的校验机制捕获
- CompileBench证明大模型能处理混乱的软件工程问题,没有'绝对最佳'模型——选择取决于智能、速度或成本等优先级
- 未来CompileBench可能纳入FFmpeg、古老GCC版本或FreeBSD交叉编译等更高难度项目