TransMLA: Multi-head latent attention is all you need
a year ago
- #Machine Learning
- #Attention Mechanisms
- #Large Language Models
- 现代大型语言模型(LLMs)在当前硬件上面临通信瓶颈
- 多头潜在注意力(MLA)在键值(KV)层使用低秩矩阵压缩潜在KV状态,减少缓存大小并加速推理
- MLA采用上投影矩阵增强表达能力,以计算开销换取通信开销的降低
- MLA已在Deepseek V2/V3/R1中验证有效,但主流模型提供商仍采用分组查询注意力(GQA)
- GQA总能被具有相同KV缓存开销的MLA表示,反之则不成立
- TransMLA作为后训练方法被提出,可将基于GQA的预训练模型(如LLaMA、Qwen、Mixtral)转换为基于MLA的模型
- 转换后的模型可通过额外训练提升表达能力,且无需增加KV缓存大小
- 未来计划开发MLA专用推理加速技术,以保持转换模型的低延迟特性