A Visual Guide to Attention Variants in Modern LLMs

2 months ago

本文以可视化形式介绍了现代大语言模型(LLMs)中使用的多种注意力变体，包括多头注意力(MHA)、分组查询注意力(GQA)、多头潜在注意力(MLA)、滑动窗口注意力(SWA)、深度求索稀疏注意力(DSA)、门控注意力以及混合注意力。
多头注意力(MHA)是标准的Transformer机制，通过多个并行自注意力头构建更丰富的输入表示。
分组查询注意力(GQA)通过在查询头之间共享键值投影来减少KV缓存内存，成为高效推理的热门选择。
多头潜在注意力(MLA)通过压缩KV缓存表示来节省内存，在大规模建模中相比GQA能提供更好的性能表现。
滑动窗口注意力(SWA)将注意力限制在固定的局部令牌窗口内，降低了长上下文推理的内存和计算成本。
深度求索稀疏注意力(DSA)采用学习到的稀疏模式选择相关历史令牌，与SWA的固定窗口方法形成差异。
门控注意力对全注意力模块进行以稳定性为导向的改造，常用于混合架构中。
混合注意力将更经济的线性或状态空间序列模块与间歇性全注意力层相结合（如Qwen3-Next和Kimi Linear模型所示），实现长上下文的高效处理。
文章总结指出，混合架构在长上下文效率方面前景广阔，但与GQA等经典方案相比仍较新颖，在推理优化方面存在不足。

Hasty Briefsbeta