Hasty Briefsbeta

双语

Scaling Latent Reasoning via Looped Language Models

4 months ago
  • #Machine Learning
  • #Natural Language Processing
  • #Artificial Intelligence
  • 介绍Ouro系列预训练循环语言模型(LoopLM),该模型家族将推理能力整合至预训练阶段
  • 核心特性包括:潜在空间的迭代计算、用于学习深度分配的熵正则化目标、以及可扩展至7.7万亿token的训练规模
  • Ouro 1.4B和2.6B模型在多项基准测试中媲美当前最先进的120亿参数大语言模型
  • 优势源于更卓越的知识操纵能力,而非单纯扩大知识容量
  • 与显式思维链(CoT)相比,LoopLM生成的推理轨迹与最终输出具有更高一致性
  • 开源特性使LoopLM有望成为推理时代的新型扩展方向