Hasty Briefsbeta

双语

Matrix Valued Residuals

2 months ago
  • #Transformers
  • #Machine Learning
  • #Neural Networks
  • 论文提出残差矩阵变换器(RMT),用外积记忆矩阵替代传统的残差流
  • RMT可独立于计算量和模型规模扩展残差流尺寸,从而提升性能
  • RMT用更少计算量(降低58%)、更少参数(减少25%)和更少训练token(节省41%)达到与传统Transformer相同的损失
  • 在下游任务评估中,RMT表现优于传统Transformer
  • 理论分析表明RMT能更高效扩展残差流,并具有更优的方差传播特性
  • 项目代码已开源(提供URL地址)