Hasty Briefsbeta

双语

The Illusion of the Illusion of Thinking – A Comment on Shojaee et al. (2025)

a year ago

#Experimental Design
#Reasoning Models
#Artificial Intelligence

Shojaee等人(2025)在复杂规划谜题研究中报告了大推理模型(LRMs)出现'准确性崩溃'现象
该研究指出了影响研究结论的三个实验设计局限:
1. 河内塔实验超出模型输出token限制,模型自身已提示存在约束条件
2. 自动化评估错误分类了推理失败与实际约束的情况
3. 河流过境基准测试包含无解问题,但模型仍被判定为失败案例
当控制这些干扰因素后,模型在先前失败的河内塔实例中展现出高准确率
研究强调了严谨的实验设计对评估AI推理能力的重要性