Hasty Briefsbeta

双语

Log-Linear Attention

a year ago

#Transformers
#Machine Learning
#Attention Mechanism

Transformer中的注意力机制对序列建模至关重要，但其存在二次计算复杂度和线性内存复杂度的问题。
线性注意力与状态空间模型提供了线性时间、恒定内存的序列建模方式，但受限于其固定大小的隐藏状态。
对数线性注意力作为一种新机制被提出，通过使用对数级增长的隐藏状态集合，在效率与表达能力之间取得平衡。
该机制可应用于现有各类线性注意力变体，在保持矩阵乘法并行化优势的同时，实现对数线性计算复杂度。
案例研究表明，Mamba-2和对数线性门控DeltaNet等变体模型性能优于对应的线性时间模型。