Hasty Briefsbeta

双语

NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute

2 months ago
  • #machine-learning
  • #data-efficiency
  • #optimization
  • NanoGPT Slowrun 是一个致力于提升数据高效学习算法的开源项目,首周即实现5.5倍数据效率提升
  • 当前扩展定律要求数据与算力同步增长,但在机器人、生物等领域数据正成为主要瓶颈
  • Q Labs 通过开发适用于有限数据和近乎无限算力的学习算法,旨在解决泛化问题
  • NanoGPT Slowrun 使用FineWeb的1亿token进行训练,允许无限算力投入,目标达成最低验证损失
  • Muon优化器在AdamW/SOAP/MAGMA等对比中表现最优,其多周期训练和激进正则化是关键因素
  • 社区贡献使数据效率从2.4倍提升至5.5倍,技术包括周期混洗、学习型投影和SwiGLU激活函数等
  • 未来可能探索二阶优化器、扩散模型、课程学习及梯度下降替代方案等方向
  • 10倍数据效率短期内可期,100倍效率将成为可行的长期目标