Hasty Briefsbeta

双语

Reasoning Models Reason Well, Until They Don't

7 months ago
  • #Reasoning
  • #Large Language Models
  • #Artificial Intelligence
  • 大语言模型(LLMs)在推理任务上取得进展,但在更高复杂度任务中表现不佳。
  • 大推理模型(LRMs)经过微调可实现逐步推理和自我验证。
  • LRMs在NLGraph等基准测试中表现良好,但难以解决更复杂的问题。
  • 新数据集Deep Reasoning Dataset(DeepRD)被提出,用于评估可扩展的复杂度。
  • LRMs在足够复杂度下性能骤降,且缺乏泛化能力。
  • 现实世界知识图谱大多处于LRMs的成功区间,但长尾部分仍存在失败可能。
  • 该研究肯定了LRMs的实用性,但呼吁开发新方法以应对更高复杂度挑战。