Hasty Briefsbeta

双语

TransMLA: Multi-head latent attention is all you need

a year ago
  • #Machine Learning
  • #Attention Mechanisms
  • #Large Language Models
  • 现代大型语言模型(LLMs)在当前硬件上面临通信瓶颈
  • 多头潜在注意力(MLA)在键值(KV)层使用低秩矩阵压缩潜在KV状态,减少缓存大小并加速推理
  • MLA采用上投影矩阵增强表达能力,以计算开销换取通信开销的降低
  • MLA已在Deepseek V2/V3/R1中验证有效,但主流模型提供商仍采用分组查询注意力(GQA)
  • GQA总能被具有相同KV缓存开销的MLA表示,反之则不成立
  • TransMLA作为后训练方法被提出,可将基于GQA的预训练模型(如LLaMA、Qwen、Mixtral)转换为基于MLA的模型
  • 转换后的模型可通过额外训练提升表达能力,且无需增加KV缓存大小
  • 未来计划开发MLA专用推理加速技术,以保持转换模型的低延迟特性