Hasty Briefsbeta

双语

Stronger Normalization-Free Transformers

5 months ago

#Transformers
#Machine Learning
#Deep Learning

动态Tanh（DyT）研究表明，深度学习中可以存在归一化层的替代方案。
本工作探索了点状函数设计，旨在超越DyT的性能表现。
通过大规模搜索，我们提出了Derf(x) = erf(αx + s)函数，其性能优于层归一化、RMSNorm和DyT。
Derf在视觉、语音表征和DNA序列建模等多个领域表现卓越。
Derf的性能提升源于其改进的泛化能力，而非更强的拟合能力。
由于其简洁性和卓越性能，Derf被推荐作为无归一化Transformer架构的实用选择。