Hasty Briefsbeta

双语

Writing an LLM from scratch, part 32d – Interventions: adding attention bias

3 months ago
  • #attention-bias
  • #GPT-2
  • #LLM
  • 文章讨论了一项通过为注意力权重矩阵(QKV偏置)添加偏置来改进GPT-2小型基础模型测试损失的实验。
  • 作者引用了Sebastian Raschka的著作,该书最初在大型语言模型中禁用QKV偏置,认为这对性能并非必要。
  • 尽管存在这种常见做法,但实验表明添加QKV偏置使测试集损失降低了0.023,优于梯度裁剪带来的改进(0.014)。
  • 添加QKV偏置后模型参数数量增长不足0.02%,使得这一改进尤为显著。
  • 作者推测QKV偏置可能通过额外参数稳定训练过程或增强模型智能性,尤其在小型模型中效果更明显。
  • 下一步计划包括通过重复基线训练验证结果的显著性,并探索学习率微调的可能性。