Hasty Briefsbeta

双语

LLMs' "simulated reasoning" abilities are a brittle mirage

9 months ago

#Chain-of-Thought
#AI
#Reasoning

AI产业正在采用'思维链'流程向模拟推理模型方向发展
最新研究质疑这些模型是否真正理解逻辑或其自身的推理过程
当面对无关条款或偏离训练数据时，模型经常产生不连贯的回答
研究人员将大语言模型描述为'复杂但模拟推理类文本的仿真器'而非原则性推理者
一项对照研究表明，思维链推理在中等程度的数据分布变化下就会失效
研究人员创建了DataAlchemy来客观测试大语言模型的泛化推理能力
DataAlchemy通过ROT密码和循环位移等简单文本转换来训练小型模型