EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages
2 months ago
- #benchmark
- #code-generation
- #LLM
- 当前LLM代码生成的基准测试主要关注Python等主流语言,导致准确率评分虚高
- EsoLang-Bench引入了80个编程问题,涵盖五种冷门语言(Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeare),这些语言的训练数据极其匮乏
- 前沿模型在冷门语言上的总体准确率仅为3.8%,而Python任务可达约90%
- 所有模型在'中等'及以上难度的问题中准确率为0%,Whitespace语言在所有配置中保持完全未解决状态(0%)
- 自我反思机制未显现优势,少量样本提示相比零样本提示也无显著改进
- 直接解释器反馈优于多智能体方法,而工具增强的智能体准确率约为纯提示方法的2倍
- 不同语言呈现差异化错误特征,逻辑错误、编译错误和运行时错误占主导地位
- EsoLang-Bench包含80个问题,分为四个难度层级,每个问题配备6个测试用例,全部用5种冷门语言实现