Attention is a smoothed cubic spline
8 months ago
- #Transformers
- #Splines
- #Artificial Intelligence
- Transformer中的注意力模块被识别为平滑的三次样条。
- 使用ReLU激活时,各种形式的注意力(掩码、编码器-解码器)都被证明是三次样条。
- Transformer的所有组件(编码器、解码器等)都由注意力模块和前馈神经网络的组合构成,这使得它们成为三次或更高阶的样条。
- 假设Pierce-Birkhoff猜想成立,每个样条都是一个ReLU激活的编码器。
- 将ReLU替换为SoftMax等平滑激活函数,可以得到原始Transformer的$C^\infty$光滑版本。
- 这一洞见将Transformer完全用样条(应用数学中已深入研究的对象)的框架来诠释。