Hasty Briefsbeta

双语

SUS backprop: linear backpropagation algorithm for long inputs in transformers

a year ago

#Transformers
#Machine Learning
#Backpropagation

无偏梯度估计器可以随机切断计算图中部分节点的反向传播路径。
Transformer中的注意力机制由于二次方计算复杂度，成为处理长序列时的瓶颈。
大多数注意力权重变得极小，因此成为切断反向传播的理想目标。
提出的概率规则切断大多数注意力权重的反向传播，将计算复杂度从二次方降至线性。
实验验证表明，切断99%注意力梯度流仅导致梯度方差微小增加。
高效的稀疏矩阵实现使得长序列的反向传播计算成本相比前向传播可忽略不计。