Hasty Briefsbeta

双语

Scaling Latent Reasoning via Looped Language Models

4 months ago

#Machine Learning
#Natural Language Processing
#Artificial Intelligence

介绍Ouro系列预训练循环语言模型（LoopLM），该模型家族将推理能力整合至预训练阶段
核心特性包括：潜在空间的迭代计算、用于学习深度分配的熵正则化目标、以及可扩展至7.7万亿token的训练规模
Ouro 1.4B和2.6B模型在多项基准测试中媲美当前最先进的120亿参数大语言模型
优势源于更卓越的知识操纵能力，而非单纯扩大知识容量
与显式思维链（CoT）相比，LoopLM生成的推理轨迹与最终输出具有更高一致性
开源特性使LoopLM有望成为推理时代的新型扩展方向