NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute
2 months ago
- #machine-learning
- #data-efficiency
- #optimization
- NanoGPT Slowrun 是一个致力于提升数据高效学习算法的开源项目,首周即实现5.5倍数据效率提升
- 当前扩展定律要求数据与算力同步增长,但在机器人、生物等领域数据正成为主要瓶颈
- Q Labs 通过开发适用于有限数据和近乎无限算力的学习算法,旨在解决泛化问题
- NanoGPT Slowrun 使用FineWeb的1亿token进行训练,允许无限算力投入,目标达成最低验证损失
- Muon优化器在AdamW/SOAP/MAGMA等对比中表现最优,其多周期训练和激进正则化是关键因素
- 社区贡献使数据效率从2.4倍提升至5.5倍,技术包括周期混洗、学习型投影和SwiGLU激活函数等
- 未来可能探索二阶优化器、扩散模型、课程学习及梯度下降替代方案等方向
- 10倍数据效率短期内可期,100倍效率将成为可行的长期目标