Hasty Briefsbeta

双语

NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute

2 months ago

#machine-learning
#data-efficiency
#optimization

NanoGPT Slowrun 是一个致力于提升数据高效学习算法的开源项目，首周即实现5.5倍数据效率提升
当前扩展定律要求数据与算力同步增长，但在机器人、生物等领域数据正成为主要瓶颈
Q Labs 通过开发适用于有限数据和近乎无限算力的学习算法，旨在解决泛化问题
NanoGPT Slowrun 使用FineWeb的1亿token进行训练，允许无限算力投入，目标达成最低验证损失
Muon优化器在AdamW/SOAP/MAGMA等对比中表现最优，其多周期训练和激进正则化是关键因素
社区贡献使数据效率从2.4倍提升至5.5倍，技术包括周期混洗、学习型投影和SwiGLU激活函数等
未来可能探索二阶优化器、扩散模型、课程学习及梯度下降替代方案等方向
10倍数据效率短期内可期，100倍效率将成为可行的长期目标