Hasty Briefsbeta

双语

TransMLA: Multi-head latent attention is all you need

a year ago

#Machine Learning
#Attention Mechanisms
#Large Language Models

现代大型语言模型（LLMs）在当前硬件上面临通信瓶颈
多头潜在注意力（MLA）在键值（KV）层使用低秩矩阵压缩潜在KV状态，减少缓存大小并加速推理
MLA采用上投影矩阵增强表达能力，以计算开销换取通信开销的降低
MLA已在Deepseek V2/V3/R1中验证有效，但主流模型提供商仍采用分组查询注意力（GQA）
GQA总能被具有相同KV缓存开销的MLA表示，反之则不成立
TransMLA作为后训练方法被提出，可将基于GQA的预训练模型（如LLaMA、Qwen、Mixtral）转换为基于MLA的模型
转换后的模型可通过额外训练提升表达能力，且无需增加KV缓存大小
未来计划开发MLA专用推理加速技术，以保持转换模型的低延迟特性