Scaling RNNs to Billions of Parameters with Zero Order
a year ago
- #Zero-Order Optimization
- #Machine Learning
- #Recurrent Neural Networks
- 循环神经网络(RNN)在推理过程中FLOPs和GPU内存占用恒定,这与线性增长的Transformer形成鲜明对比
- 由于内存消耗过高,在长上下文场景下通过时间反向传播(BPTT)训练大型RNN是不现实的
- 零阶优化方法(ZOO)如随机向量梯度估计(RGE)可替代BPTT,在保持或超越其收敛速度的同时显著降低内存占用和计算成本
- 中心差分RGE(CD-RGE)通过优化平滑代理损失函数,有效提升了正则化效果和泛化能力
- 该方法在过拟合、转导和语言建模任务中达到或超越BPTT表现,且通常需要更少训练步数
- 尽管每一步需要更多前向传播,但结合FlashRNN和分布式推理等技术创新,该方法最终可突破BPTT的墙钟时间限制