Hasty Briefsbeta

双语

Why most AI coding benchmarks are misleading (COMPASS paper)

8 months ago

#AI
#code-generation
#benchmark

COMPASS是一个用于评估大语言模型代码生成能力的多维基准测试
它从正确性、效率和质量三个维度评估代码生成
包含50道来自真实Codility竞赛的编程题目
提供来自393,150份提交的真人基准数据
使用行业标准分析工具评估运行时效率和代码质量
对主流模型(Claude Opus 4/Gemini 2.5 Pro/O4-Mini-High)的评估显示：高正确率分数并不保证代码高效或可维护
COMPASS强调在现实代码生成能力评估中需要超越正确性指标