Hasty Briefsbeta

双语

Fantastic Pretraining Optimizers and Where to Find Them

8 months ago

#optimizers
#pretraining
#machine-learning

尽管存在声称更快的替代方案，AdamW 始终是语言模型预训练中的主流优化器
两种方法论问题阻碍了公平比较：不均衡的超参数调优和有限的评估设置
我们对十种优化器进行了系统性研究，涵盖模型规模（0.1B-1.2B参数）和数据-模型比例
公平比较需要严格的超参数调优和训练结束时的最终评估
某个优化器的最佳超参数对另一优化器可能是次优选择，盲目迁移会导致不公平
新优化器相对于充分调优基线的实际加速比低于宣称值，且随模型规模增大而减弱
由于学习率衰减效应，比较中间检查点可能产生误导性结论
最快优化器（Muon、Soap）使用矩阵作为预条件子，但加速效果随模型规模增大而降低