Hasty Briefsbeta

双语

Scaling RNNs to Billions of Parameters with Zero Order

a year ago

#Zero-Order Optimization
#Machine Learning
#Recurrent Neural Networks

循环神经网络(RNN)在推理过程中FLOPs和GPU内存占用恒定，这与线性增长的Transformer形成鲜明对比
由于内存消耗过高，在长上下文场景下通过时间反向传播(BPTT)训练大型RNN是不现实的
零阶优化方法(ZOO)如随机向量梯度估计(RGE)可替代BPTT，在保持或超越其收敛速度的同时显著降低内存占用和计算成本
中心差分RGE(CD-RGE)通过优化平滑代理损失函数，有效提升了正则化效果和泛化能力
该方法在过拟合、转导和语言建模任务中达到或超越BPTT表现，且通常需要更少训练步数
尽管每一步需要更多前向传播，但结合FlashRNN和分布式推理等技术创新，该方法最终可突破BPTT的墙钟时间限制