Hasty Briefsbeta

双语

Why Can't Transformers Learn Multiplication?

7 months ago

#Long-Range Dependencies
#Transformers
#Machine Learning

尽管语言模型能力不断增强，但在多位乘法运算上仍存在困难。
逆向工程显示模型通过隐式思维链学习乘法运算。
关键发现包括：长程结构证据、依赖关系编码机制以及部分积的空间几何特性。
模型通过注意力机制编码长程依赖，构建有向无环图来缓存和检索部分积。
部分积在注意力头中通过闵可夫斯基和实现，数字以傅里叶基表示。
标准微调模型会收敛于缺乏必要长程依赖的局部最优解。
通过线性回归预测'运行总和'的辅助损失函数，可成功学习多位乘法运算。
该研究揭示了Transformer学习长程依赖的陷阱，并提出归纳偏置作为解决方案。