Hasty Briefsbeta

双语

Stronger Normalization-Free Transformers

5 months ago
  • #Transformers
  • #Machine Learning
  • #Deep Learning
  • 动态Tanh(DyT)研究表明,深度学习中可以存在归一化层的替代方案。
  • 本工作探索了点状函数设计,旨在超越DyT的性能表现。
  • 通过大规模搜索,我们提出了Derf(x) = erf(αx + s)函数,其性能优于层归一化、RMSNorm和DyT。
  • Derf在视觉、语音表征和DNA序列建模等多个领域表现卓越。
  • Derf的性能提升源于其改进的泛化能力,而非更强的拟合能力。
  • 由于其简洁性和卓越性能,Derf被推荐作为无归一化Transformer架构的实用选择。