Stronger Normalization-Free Transformers
5 months ago
- #Transformers
- #Machine Learning
- #Deep Learning
- 动态Tanh(DyT)研究表明,深度学习中可以存在归一化层的替代方案。
- 本工作探索了点状函数设计,旨在超越DyT的性能表现。
- 通过大规模搜索,我们提出了Derf(x) = erf(αx + s)函数,其性能优于层归一化、RMSNorm和DyT。
- Derf在视觉、语音表征和DNA序列建模等多个领域表现卓越。
- Derf的性能提升源于其改进的泛化能力,而非更强的拟合能力。
- 由于其简洁性和卓越性能,Derf被推荐作为无归一化Transformer架构的实用选择。