Hasty Briefsbeta

双语

Writing an LLM from scratch, part 13 – attention heads are dumb

a year ago

#deep-learning
#LLM
#attention-mechanism

文章探讨了LLM中自注意力机制的'为什么'，强调单个注意力头比最初想象的要简单。
多头注意力和层级结构共同作用形成复杂表征，每一层都在前一层的基础上进行构建。
注意力头使用简单的模式匹配，将输入嵌入投影到共享空间，通过查询向量和键向量计算注意力分数。
以'the fat cat sat on the mat'为例，展示了在简化嵌入空间中注意力头如何聚焦于匹配冠词与名词。
文章指出'愚钝'注意力头的精妙之处——通过执行基础操作，集体实现复杂的语言理解能力。
作者计划在后续文章中探讨上下文长度问题，指出随输入序列增长而扩展的隐藏状态既有优势也存在潜在缺陷。