Scaling Latent Reasoning via Looped Language Models
4 months ago
- #Machine Learning
- #Natural Language Processing
- #Artificial Intelligence
- 介绍Ouro系列预训练循环语言模型(LoopLM),该模型家族将推理能力整合至预训练阶段
- 核心特性包括:潜在空间的迭代计算、用于学习深度分配的熵正则化目标、以及可扩展至7.7万亿token的训练规模
- Ouro 1.4B和2.6B模型在多项基准测试中媲美当前最先进的120亿参数大语言模型
- 优势源于更卓越的知识操纵能力,而非单纯扩大知识容量
- 与显式思维链(CoT)相比,LoopLM生成的推理轨迹与最终输出具有更高一致性
- 开源特性使LoopLM有望成为推理时代的新型扩展方向