Out-of-Distribution Generalization in Transformers via Latent Space Reasoning
6 months ago
- #OOD Generalization
- #Transformers
- #Machine Learning
- 研究Transformer网络在计算图上使用模运算时的分布外(OOD)泛化能力
- 提出四种增强OOD泛化的架构机制:输入自适应循环、算法监督、锚定潜在表示和显式纠错机制
- 通过实证结果和机制可解释性分析,展示这些机制如何实现稳健的OOD泛化
- 专注于超越训练分布的系统性和组合性泛化——这是现代语言模型面临的关键挑战