Hasty Briefsbeta

双语

How does gradient descent work?

7 months ago
  • #deep learning
  • #gradient descent
  • #optimization
  • 本文提出了一种深度学习梯度下降的新分析方法,聚焦于'稳定性边缘'(EOS)动态特性。
  • 传统梯度下降分析无法捕捉深度学习动态,特别是当锐度(最大Hessian特征值)超过2/η时。
  • 深度学习中的梯度下降常会脱离稳定区域(锐度<2/η),但会通过降低锐度的振荡实现自我调节。
  • 三阶泰勒展开表明梯度下降具有隐式负反馈机制,通过振荡调节锐度。
  • 论文提出'中心流'微分方程,建模梯度下降的时间平均轨迹,包含EOS状态下的行为。
  • 中心流精确预测振荡协方差,并与不同架构下梯度下降的长期路径相匹配。
  • 沿中心流的损失函数是隐藏的进度指标,呈现单调递减特性,与梯度下降下的非单调损失不同。
  • 实证结果表明中心流预测在不同神经网络和任务中均成立,验证了其普适性。