Hasty Briefsbeta

双语

Writing an LLM from scratch, part 13 – attention heads are dumb

a year ago
  • #deep-learning
  • #LLM
  • #attention-mechanism
  • 文章探讨了LLM中自注意力机制的'为什么',强调单个注意力头比最初想象的要简单。
  • 多头注意力和层级结构共同作用形成复杂表征,每一层都在前一层的基础上进行构建。
  • 注意力头使用简单的模式匹配,将输入嵌入投影到共享空间,通过查询向量和键向量计算注意力分数。
  • 以'the fat cat sat on the mat'为例,展示了在简化嵌入空间中注意力头如何聚焦于匹配冠词与名词。
  • 文章指出'愚钝'注意力头的精妙之处——通过执行基础操作,集体实现复杂的语言理解能力。
  • 作者计划在后续文章中探讨上下文长度问题,指出随输入序列增长而扩展的隐藏状态既有优势也存在潜在缺陷。