Hasty Briefsbeta

双语

Fantastic Pretraining Optimizers and Where to Find Them

8 months ago
  • #optimizers
  • #pretraining
  • #machine-learning
  • 尽管存在声称更快的替代方案,AdamW 始终是语言模型预训练中的主流优化器
  • 两种方法论问题阻碍了公平比较:不均衡的超参数调优和有限的评估设置
  • 我们对十种优化器进行了系统性研究,涵盖模型规模(0.1B-1.2B参数)和数据-模型比例
  • 公平比较需要严格的超参数调优和训练结束时的最终评估
  • 某个优化器的最佳超参数对另一优化器可能是次优选择,盲目迁移会导致不公平
  • 新优化器相对于充分调优基线的实际加速比低于宣称值,且随模型规模增大而减弱
  • 由于学习率衰减效应,比较中间检查点可能产生误导性结论
  • 最快优化器(Muon、Soap)使用矩阵作为预条件子,但加速效果随模型规模增大而降低