Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
7 months ago
- #Feature Learning
- #Machine Learning
- #Grokking
- 论文提出了一种名为$\mathbf{Li_2}$的新框架,用于研究双层非线性网络中的顿悟行为。
- 该研究识别了顿悟的三个关键阶段:惰性学习、独立特征学习和交互特征学习。
- 惰性学习表现为顶层网络对随机隐藏表征的过拟合,导致记忆效应。
- 反向传播梯度$G_F$携带标签信息,使隐藏节点能够进行独立特征学习。
- 独立动态遵循能量函数$E$的梯度上升过程,其局部最大值即为涌现特征。
- 研究考察了泛化性、表征能力及样本量对特征涌现的影响。
- 交互学习阶段显示$G_F$会聚焦于缺失特征。
- 分析揭示了权重衰减、学习率和样本量等超参数在顿悟中的作用。
- 提出了可证明的特征涌现、记忆和泛化的标度律。
- 从梯度动力学原理解释了Muon等优化器的有效性。
- 该框架可扩展至多层网络架构。