Hasty Briefsbeta

双语

Transformers Without Normalization

10 months ago
  • #Transformers
  • #Machine Learning
  • #Normalization
  • 归一化层在现代神经网络中虽被广泛使用,但可能并非不可或缺。
  • 动态Tanh(DyT)作为Transformer中归一化层的简易替代方案被提出。
  • DyT的灵感源于层归一化常产生类tanh映射的观察现象。
  • 采用DyT的Transformer模型性能可媲美或超越使用归一化的基准模型。
  • DyT的有效性在识别、生成及多种学习范式等不同场景中得到验证。
  • 该研究挑战了'归一化层是神经网络必备组件'的传统认知。