Hasty Briefsbeta

双语

Why Can't Transformers Learn Multiplication?

7 months ago
  • #Long-Range Dependencies
  • #Transformers
  • #Machine Learning
  • 尽管语言模型能力不断增强,但在多位乘法运算上仍存在困难。
  • 逆向工程显示模型通过隐式思维链学习乘法运算。
  • 关键发现包括:长程结构证据、依赖关系编码机制以及部分积的空间几何特性。
  • 模型通过注意力机制编码长程依赖,构建有向无环图来缓存和检索部分积。
  • 部分积在注意力头中通过闵可夫斯基和实现,数字以傅里叶基表示。
  • 标准微调模型会收敛于缺乏必要长程依赖的局部最优解。
  • 通过线性回归预测'运行总和'的辅助损失函数,可成功学习多位乘法运算。
  • 该研究揭示了Transformer学习长程依赖的陷阱,并提出归纳偏置作为解决方案。