Hasty Briefsbeta

双语

Surprising Effectiveness of Masking Updates in Adaptive Optimizers

3 months ago

#Optimization
#Machine Learning
#Large Language Models

在自适应优化器中掩码参数更新可以非常有效。
掩码版RMSProp超越了当前最先进的优化器表现。
随机掩码会引发曲率依赖的几何正则化，从而平滑优化轨迹。
动量对齐梯度掩码(Magma)被提出作为自适应优化器的即插即用替代方案。
Magma在LLM预训练中展现出持续增益，且计算开销可忽略不计。
对于10亿参数规模的模型，Magma相比Adam降低超过19%的困惑度，相比Muon降低9%。