Hasty Briefsbeta

双语

Kimi Linear: An Expressive, Efficient Attention Architecture

4 months ago
  • #linear-attention
  • #machine-learning
  • #efficiency
  • Kimi Linear模型在MMLU-Pro基准测试中取得51.0分,速度与完全注意力机制相当
  • 在128k上下文长度的RULER测试中,展现帕累托最优性能(84.3分)并实现3.98倍加速
  • Kimi Linear的TPOT速度比MLA快6.3倍,尤其在百万token长序列场景优势显著
  • Kimi Delta Attention(KDA)是带高效门控机制的Gated DeltaNet改进版
  • 最高减少75%的KV缓存占用,解码吞吐量显著提升
  • 已在FLA开源KDA内核,并发布两个基于5.7万亿token训练的模型检查点
  • 采用3:1的KDA/全局MLA混合架构,在保证质量同时降低内存消耗
  • 在1.4万亿token训练的长上下文和强化学习类基准测试中表现卓越
  • 最高实现6倍解码加速,有效降低单输出token耗时(TPOT)
  • 提供Python调用Kimi Linear模型的示例代码及vllm部署方案