Hasty Briefsbeta

双语

How does gradient descent work?

7 months ago

#deep learning
#gradient descent
#optimization

本文提出了一种深度学习梯度下降的新分析方法，聚焦于'稳定性边缘'(EOS)动态特性。
传统梯度下降分析无法捕捉深度学习动态，特别是当锐度（最大Hessian特征值）超过2/η时。
深度学习中的梯度下降常会脱离稳定区域（锐度<2/η），但会通过降低锐度的振荡实现自我调节。
三阶泰勒展开表明梯度下降具有隐式负反馈机制，通过振荡调节锐度。
论文提出'中心流'微分方程，建模梯度下降的时间平均轨迹，包含EOS状态下的行为。
中心流精确预测振荡协方差，并与不同架构下梯度下降的长期路径相匹配。
沿中心流的损失函数是隐藏的进度指标，呈现单调递减特性，与梯度下降下的非单调损失不同。
实证结果表明中心流预测在不同神经网络和任务中均成立，验证了其普适性。