Transformers Without Normalization
10 months ago
- #Transformers
- #Machine Learning
- #Normalization
- 归一化层在现代神经网络中虽被广泛使用,但可能并非不可或缺。
- 动态Tanh(DyT)作为Transformer中归一化层的简易替代方案被提出。
- DyT的灵感源于层归一化常产生类tanh映射的观察现象。
- 采用DyT的Transformer模型性能可媲美或超越使用归一化的基准模型。
- DyT的有效性在识别、生成及多种学习范式等不同场景中得到验证。
- 该研究挑战了'归一化层是神经网络必备组件'的传统认知。