Hasty Briefsbeta

双语

Modern Optimizers – An Alchemist's Notes on Deep Learning

6 months ago

#gradient-descent
#machine-learning
#optimization

像Adam这样的现代优化器是现代学习的支柱，但谱白化方法声称能超越Adam的性能。
传统梯度下降使用欧几里得距离度量，但非欧几里得度量可以通过考虑参数敏感性来改进优化。
白化度量源自高斯-牛顿矩阵的平方根，为优化提供了保守估计。
自然梯度下降使用费舍尔信息矩阵，该矩阵与白化度量相关，并确保参数化不变的优化。
谱范数下降通过将梯度投影到正交矩阵上，优化最大奇异值，从而与白化度量相关联。
Adam/RMSProp、Shampoo/SOAP/SPlus、PSGD和Muon等优化器以不同的计算效率实现了谱白化方法。
基准测试表明，SOAP和Muon等谱白化优化器在验证损失和与Adam的步骤比方面优于Adam。
SOAP在每一步梯度更新中最为有效，而Muon提供了计算效率，这表明混合方法可能是最优选择。
目前没有哪种优化方法能可靠地超越谱白化优化器，这表明优化技术需要进一步创新。