Hasty Briefsbeta

双语

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

6 months ago

#Large Language Models
#Cognitive Science
#Artificial Intelligence

大语言模型（LLMs）能解决复杂问题，却在简单变体上失败，表明其推理机制与人类不同。
从认知科学研究中综合出28种认知要素的分类法，用以分析LLMs的推理行为。
提出细粒度认知评估框架，分析了17个模型的170K条轨迹和54条人类有声思维轨迹。
发现系统性结构差异：人类使用层级嵌套和元认知监控，而模型依赖浅层前向链式推理。
对1,598篇LLM推理论文的元分析表明，研究集中于易量化的行为，忽视了与成功相关的元认知控制。
模型具备与成功相关的行为库，但无法自主调用。
开发了测试时推理引导方法，通过搭建成功结构使复杂问题上的性能提升达60%。
该研究 bridging 认知科学与LLM研究，旨在让模型通过原则性认知机制而非捷径或记忆进行推理。