Hasty Briefsbeta

双语

Reasoning Models Reason Well, Until They Don't

7 months ago

#Reasoning
#Large Language Models
#Artificial Intelligence

大语言模型（LLMs）在推理任务上取得进展，但在更高复杂度任务中表现不佳。
大推理模型（LRMs）经过微调可实现逐步推理和自我验证。
LRMs在NLGraph等基准测试中表现良好，但难以解决更复杂的问题。
新数据集Deep Reasoning Dataset（DeepRD）被提出，用于评估可扩展的复杂度。
LRMs在足够复杂度下性能骤降，且缺乏泛化能力。
现实世界知识图谱大多处于LRMs的成功区间，但长尾部分仍存在失败可能。
该研究肯定了LRMs的实用性，但呼吁开发新方法以应对更高复杂度挑战。