Log-Linear Attention
a year ago
- #Transformers
- #Machine Learning
- #Attention Mechanism
- Transformer中的注意力机制对序列建模至关重要,但其存在二次计算复杂度和线性内存复杂度的问题。
- 线性注意力与状态空间模型提供了线性时间、恒定内存的序列建模方式,但受限于其固定大小的隐藏状态。
- 对数线性注意力作为一种新机制被提出,通过使用对数级增长的隐藏状态集合,在效率与表达能力之间取得平衡。
- 该机制可应用于现有各类线性注意力变体,在保持矩阵乘法并行化优势的同时,实现对数线性计算复杂度。
- 案例研究表明,Mamba-2和对数线性门控DeltaNet等变体模型性能优于对应的线性时间模型。