Why most AI coding benchmarks are misleading (COMPASS paper)
8 months ago
- #AI
- #code-generation
- #benchmark
- COMPASS是一个用于评估大语言模型代码生成能力的多维基准测试
- 它从正确性、效率和质量三个维度评估代码生成
- 包含50道来自真实Codility竞赛的编程题目
- 提供来自393,150份提交的真人基准数据
- 使用行业标准分析工具评估运行时效率和代码质量
- 对主流模型(Claude Opus 4/Gemini 2.5 Pro/O4-Mini-High)的评估显示:高正确率分数并不保证代码高效或可维护
- COMPASS强调在现实代码生成能力评估中需要超越正确性指标