Writing an LLM from scratch, part 13 – attention heads are dumb
a year ago
- #deep-learning
- #LLM
- #attention-mechanism
- 文章探讨了LLM中自注意力机制的'为什么',强调单个注意力头比最初想象的要简单。
- 多头注意力和层级结构共同作用形成复杂表征,每一层都在前一层的基础上进行构建。
- 注意力头使用简单的模式匹配,将输入嵌入投影到共享空间,通过查询向量和键向量计算注意力分数。
- 以'the fat cat sat on the mat'为例,展示了在简化嵌入空间中注意力头如何聚焦于匹配冠词与名词。
- 文章指出'愚钝'注意力头的精妙之处——通过执行基础操作,集体实现复杂的语言理解能力。
- 作者计划在后续文章中探讨上下文长度问题,指出随输入序列增长而扩展的隐藏状态既有优势也存在潜在缺陷。