Hasty Briefsbeta

双语

Out-of-Distribution Generalization in Transformers via Latent Space Reasoning

6 months ago

#OOD Generalization
#Transformers
#Machine Learning

研究Transformer网络在计算图上使用模运算时的分布外（OOD）泛化能力
提出四种增强OOD泛化的架构机制：输入自适应循环、算法监督、锚定潜在表示和显式纠错机制
通过实证结果和机制可解释性分析，展示这些机制如何实现稳健的OOD泛化
专注于超越训练分布的系统性和组合性泛化——这是现代语言模型面临的关键挑战