Surprising Effectiveness of Masking Updates in Adaptive Optimizers
7 days ago
- #Optimization
- #Machine Learning
- #Large Language Models
- 在自适应优化器中掩码参数更新可以非常有效。
- 掩码版RMSProp超越了当前最先进的优化器表现。
- 随机掩码会引发曲率依赖的几何正则化,从而平滑优化轨迹。
- 动量对齐梯度掩码(Magma)被提出作为自适应优化器的即插即用替代方案。
- Magma在LLM预训练中展现出持续增益,且计算开销可忽略不计。
- 对于10亿参数规模的模型,Magma相比Adam降低超过19%的困惑度,相比Muon降低9%。