Matrix Valued Residuals
2 months ago
- #Transformers
- #Machine Learning
- #Neural Networks
- 论文提出残差矩阵变换器(RMT),用外积记忆矩阵替代传统的残差流
- RMT可独立于计算量和模型规模扩展残差流尺寸,从而提升性能
- RMT用更少计算量(降低58%)、更少参数(减少25%)和更少训练token(节省41%)达到与传统Transformer相同的损失
- 在下游任务评估中,RMT表现优于传统Transformer
- 理论分析表明RMT能更高效扩展残差流,并具有更优的方差传播特性
- 项目代码已开源(提供URL地址)