Hasty Briefsbeta

双语

Surprising Effectiveness of Masking Updates in Adaptive Optimizers

7 days ago
  • #Optimization
  • #Machine Learning
  • #Large Language Models
  • 在自适应优化器中掩码参数更新可以非常有效。
  • 掩码版RMSProp超越了当前最先进的优化器表现。
  • 随机掩码会引发曲率依赖的几何正则化,从而平滑优化轨迹。
  • 动量对齐梯度掩码(Magma)被提出作为自适应优化器的即插即用替代方案。
  • Magma在LLM预训练中展现出持续增益,且计算开销可忽略不计。
  • 对于10亿参数规模的模型,Magma相比Adam降低超过19%的困惑度,相比Muon降低9%。