The Illusion of the Illusion of Thinking – A Comment on Shojaee et al. (2025)
a year ago
- #Experimental Design
- #Reasoning Models
- #Artificial Intelligence
- Shojaee等人(2025)在复杂规划谜题研究中报告了大推理模型(LRMs)出现'准确性崩溃'现象
- 该研究指出了影响研究结论的三个实验设计局限:
- 1. 河内塔实验超出模型输出token限制,模型自身已提示存在约束条件
- 2. 自动化评估错误分类了推理失败与实际约束的情况
- 3. 河流过境基准测试包含无解问题,但模型仍被判定为失败案例
- 当控制这些干扰因素后,模型在先前失败的河内塔实例中展现出高准确率
- 研究强调了严谨的实验设计对评估AI推理能力的重要性