Reasoning Models Reason Well, Until They Don't
7 months ago
- #Reasoning
- #Large Language Models
- #Artificial Intelligence
- 大语言模型(LLMs)在推理任务上取得进展,但在更高复杂度任务中表现不佳。
- 大推理模型(LRMs)经过微调可实现逐步推理和自我验证。
- LRMs在NLGraph等基准测试中表现良好,但难以解决更复杂的问题。
- 新数据集Deep Reasoning Dataset(DeepRD)被提出,用于评估可扩展的复杂度。
- LRMs在足够复杂度下性能骤降,且缺乏泛化能力。
- 现实世界知识图谱大多处于LRMs的成功区间,但长尾部分仍存在失败可能。
- 该研究肯定了LRMs的实用性,但呼吁开发新方法以应对更高复杂度挑战。