EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages

2 months ago

当前LLM代码生成的基准测试主要关注Python等主流语言，导致准确率评分虚高
EsoLang-Bench引入了80个编程问题，涵盖五种冷门语言（Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeare），这些语言的训练数据极其匮乏
前沿模型在冷门语言上的总体准确率仅为3.8%，而Python任务可达约90%
所有模型在'中等'及以上难度的问题中准确率为0%，Whitespace语言在所有配置中保持完全未解决状态（0%）
自我反思机制未显现优势，少量样本提示相比零样本提示也无显著改进
直接解释器反馈优于多智能体方法，而工具增强的智能体准确率约为纯提示方法的2倍
不同语言呈现差异化错误特征，逻辑错误、编译错误和运行时错误占主导地位
EsoLang-Bench包含80个问题，分为四个难度层级，每个问题配备6个测试用例，全部用5种冷门语言实现

Hasty Briefsbeta