Hasty Briefsbeta

双语

Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking

7 months ago
  • #Feature Learning
  • #Machine Learning
  • #Grokking
  • 论文提出了一种名为$\mathbf{Li_2}$的新框架,用于研究双层非线性网络中的顿悟行为。
  • 该研究识别了顿悟的三个关键阶段:惰性学习、独立特征学习和交互特征学习。
  • 惰性学习表现为顶层网络对随机隐藏表征的过拟合,导致记忆效应。
  • 反向传播梯度$G_F$携带标签信息,使隐藏节点能够进行独立特征学习。
  • 独立动态遵循能量函数$E$的梯度上升过程,其局部最大值即为涌现特征。
  • 研究考察了泛化性、表征能力及样本量对特征涌现的影响。
  • 交互学习阶段显示$G_F$会聚焦于缺失特征。
  • 分析揭示了权重衰减、学习率和样本量等超参数在顿悟中的作用。
  • 提出了可证明的特征涌现、记忆和泛化的标度律。
  • 从梯度动力学原理解释了Muon等优化器的有效性。
  • 该框架可扩展至多层网络架构。