Hasty Briefsbeta

双语

Transformers Without Normalization

10 months ago

#Transformers
#Machine Learning
#Normalization

归一化层在现代神经网络中虽被广泛使用，但可能并非不可或缺。
动态Tanh（DyT）作为Transformer中归一化层的简易替代方案被提出。
DyT的灵感源于层归一化常产生类tanh映射的观察现象。
采用DyT的Transformer模型性能可媲美或超越使用归一化的基准模型。
DyT的有效性在识别、生成及多种学习范式等不同场景中得到验证。
该研究挑战了'归一化层是神经网络必备组件'的传统认知。