Hasty Briefsbeta

双语

Writing an LLM from scratch, part 32d – Interventions: adding attention bias

3 months ago

#attention-bias
#GPT-2
#LLM

文章讨论了一项通过为注意力权重矩阵（QKV偏置）添加偏置来改进GPT-2小型基础模型测试损失的实验。
作者引用了Sebastian Raschka的著作，该书最初在大型语言模型中禁用QKV偏置，认为这对性能并非必要。
尽管存在这种常见做法，但实验表明添加QKV偏置使测试集损失降低了0.023，优于梯度裁剪带来的改进（0.014）。
添加QKV偏置后模型参数数量增长不足0.02%，使得这一改进尤为显著。
作者推测QKV偏置可能通过额外参数稳定训练过程或增强模型智能性，尤其在小型模型中效果更明显。
下一步计划包括通过重复基线训练验证结果的显著性，并探索学习率微调的可能性。