Hasty Briefsbeta

双语

Are LLMs not getting better?

2 months ago
  • #Performance
  • #LLM
  • #Programming
  • 大语言模型生成的代码通过测试的频率高于达到可合并质量标准的频率
  • 当以维护者批准而非测试通过作为成功标准时,性能出现显著下降
  • 与某些说法相反,自2025年初以来,LLM生成代码的合并率并未显示出提升
  • 统计分析(Brier评分)显示恒定合并率模型优于线性或逻辑增长趋势
  • 关于近期能力提升的声明缺乏严谨证据,与2025年未经证实的说法如出一辙