Hasty Briefsbeta

双语

Why most AI coding benchmarks are misleading (COMPASS paper)

8 months ago
  • #AI
  • #code-generation
  • #benchmark
  • COMPASS是一个用于评估大语言模型代码生成能力的多维基准测试
  • 它从正确性、效率和质量三个维度评估代码生成
  • 包含50道来自真实Codility竞赛的编程题目
  • 提供来自393,150份提交的真人基准数据
  • 使用行业标准分析工具评估运行时效率和代码质量
  • 对主流模型(Claude Opus 4/Gemini 2.5 Pro/O4-Mini-High)的评估显示:高正确率分数并不保证代码高效或可维护
  • COMPASS强调在现实代码生成能力评估中需要超越正确性指标