Are LLMs not getting better?2 months ago#Performance#LLM#Programminghttps://entropicthoughts.com/no-swe-bench-improvementCopy Link大语言模型生成的代码通过测试的频率高于达到可合并质量标准的频率当以维护者批准而非测试通过作为成功标准时,性能出现显著下降与某些说法相反,自2025年初以来,LLM生成代码的合并率并未显示出提升统计分析(Brier评分)显示恒定合并率模型优于线性或逻辑增长趋势关于近期能力提升的声明缺乏严谨证据,与2025年未经证实的说法如出一辙