Hasty Briefsbeta

双语

Scaling RNNs to Billions of Parameters with Zero Order

a year ago
  • #Zero-Order Optimization
  • #Machine Learning
  • #Recurrent Neural Networks
  • 循环神经网络(RNN)在推理过程中FLOPs和GPU内存占用恒定,这与线性增长的Transformer形成鲜明对比
  • 由于内存消耗过高,在长上下文场景下通过时间反向传播(BPTT)训练大型RNN是不现实的
  • 零阶优化方法(ZOO)如随机向量梯度估计(RGE)可替代BPTT,在保持或超越其收敛速度的同时显著降低内存占用和计算成本
  • 中心差分RGE(CD-RGE)通过优化平滑代理损失函数,有效提升了正则化效果和泛化能力
  • 该方法在过拟合、转导和语言建模任务中达到或超越BPTT表现,且通常需要更少训练步数
  • 尽管每一步需要更多前向传播,但结合FlashRNN和分布式推理等技术创新,该方法最终可突破BPTT的墙钟时间限制