Hasty Briefsbeta

双语

The Illusion of the Illusion of Thinking – A Comment on Shojaee et al. (2025)

a year ago
  • #Experimental Design
  • #Reasoning Models
  • #Artificial Intelligence
  • Shojaee等人(2025)在复杂规划谜题研究中报告了大推理模型(LRMs)出现'准确性崩溃'现象
  • 该研究指出了影响研究结论的三个实验设计局限:
  • 1. 河内塔实验超出模型输出token限制,模型自身已提示存在约束条件
  • 2. 自动化评估错误分类了推理失败与实际约束的情况
  • 3. 河流过境基准测试包含无解问题,但模型仍被判定为失败案例
  • 当控制这些干扰因素后,模型在先前失败的河内塔实例中展现出高准确率
  • 研究强调了严谨的实验设计对评估AI推理能力的重要性