Writing an LLM from scratch, part 32d – Interventions: adding attention bias
3 months ago
- #attention-bias
- #GPT-2
- #LLM
- 文章讨论了一项通过为注意力权重矩阵(QKV偏置)添加偏置来改进GPT-2小型基础模型测试损失的实验。
- 作者引用了Sebastian Raschka的著作,该书最初在大型语言模型中禁用QKV偏置,认为这对性能并非必要。
- 尽管存在这种常见做法,但实验表明添加QKV偏置使测试集损失降低了0.023,优于梯度裁剪带来的改进(0.014)。
- 添加QKV偏置后模型参数数量增长不足0.02%,使得这一改进尤为显著。
- 作者推测QKV偏置可能通过额外参数稳定训练过程或增强模型智能性,尤其在小型模型中效果更明显。
- 下一步计划包括通过重复基线训练验证结果的显著性,并探索学习率微调的可能性。