Hasty Briefsbeta

双语

Attention is a smoothed cubic spline

8 months ago
  • #Transformers
  • #Splines
  • #Artificial Intelligence
  • Transformer中的注意力模块被识别为平滑的三次样条。
  • 使用ReLU激活时,各种形式的注意力(掩码、编码器-解码器)都被证明是三次样条。
  • Transformer的所有组件(编码器、解码器等)都由注意力模块和前馈神经网络的组合构成,这使得它们成为三次或更高阶的样条。
  • 假设Pierce-Birkhoff猜想成立,每个样条都是一个ReLU激活的编码器。
  • 将ReLU替换为SoftMax等平滑激活函数,可以得到原始Transformer的$C^\infty$光滑版本。
  • 这一洞见将Transformer完全用样条(应用数学中已深入研究的对象)的框架来诠释。