Modern Optimizers – An Alchemist's Notes on Deep Learning
6 months ago
- #gradient-descent
- #machine-learning
- #optimization
- 像Adam这样的现代优化器是现代学习的支柱,但谱白化方法声称能超越Adam的性能。
- 传统梯度下降使用欧几里得距离度量,但非欧几里得度量可以通过考虑参数敏感性来改进优化。
- 白化度量源自高斯-牛顿矩阵的平方根,为优化提供了保守估计。
- 自然梯度下降使用费舍尔信息矩阵,该矩阵与白化度量相关,并确保参数化不变的优化。
- 谱范数下降通过将梯度投影到正交矩阵上,优化最大奇异值,从而与白化度量相关联。
- Adam/RMSProp、Shampoo/SOAP/SPlus、PSGD和Muon等优化器以不同的计算效率实现了谱白化方法。
- 基准测试表明,SOAP和Muon等谱白化优化器在验证损失和与Adam的步骤比方面优于Adam。
- SOAP在每一步梯度更新中最为有效,而Muon提供了计算效率,这表明混合方法可能是最优选择。
- 目前没有哪种优化方法能可靠地超越谱白化优化器,这表明优化技术需要进一步创新。