Why Can't Transformers Learn Multiplication?
7 months ago
- #Long-Range Dependencies
- #Transformers
- #Machine Learning
- 尽管语言模型能力不断增强,但在多位乘法运算上仍存在困难。
- 逆向工程显示模型通过隐式思维链学习乘法运算。
- 关键发现包括:长程结构证据、依赖关系编码机制以及部分积的空间几何特性。
- 模型通过注意力机制编码长程依赖,构建有向无环图来缓存和检索部分积。
- 部分积在注意力头中通过闵可夫斯基和实现,数字以傅里叶基表示。
- 标准微调模型会收敛于缺乏必要长程依赖的局部最优解。
- 通过线性回归预测'运行总和'的辅助损失函数,可成功学习多位乘法运算。
- 该研究揭示了Transformer学习长程依赖的陷阱,并提出归纳偏置作为解决方案。