Fantastic Pretraining Optimizers and Where to Find Them
8 months ago
- #optimizers
- #pretraining
- #machine-learning
- 尽管存在声称更快的替代方案,AdamW 始终是语言模型预训练中的主流优化器
- 两种方法论问题阻碍了公平比较:不均衡的超参数调优和有限的评估设置
- 我们对十种优化器进行了系统性研究,涵盖模型规模(0.1B-1.2B参数)和数据-模型比例
- 公平比较需要严格的超参数调优和训练结束时的最终评估
- 某个优化器的最佳超参数对另一优化器可能是次优选择,盲目迁移会导致不公平
- 新优化器相对于充分调优基线的实际加速比低于宣称值,且随模型规模增大而减弱
- 由于学习率衰减效应,比较中间检查点可能产生误导性结论
- 最快优化器(Muon、Soap)使用矩阵作为预条件子,但加速效果随模型规模增大而降低