Kimi Linear: An Expressive, Efficient Attention Architecture
4 months ago
- #linear-attention
- #machine-learning
- #efficiency
- Kimi Linear模型在MMLU-Pro基准测试中取得51.0分,速度与完全注意力机制相当
- 在128k上下文长度的RULER测试中,展现帕累托最优性能(84.3分)并实现3.98倍加速
- Kimi Linear的TPOT速度比MLA快6.3倍,尤其在百万token长序列场景优势显著
- Kimi Delta Attention(KDA)是带高效门控机制的Gated DeltaNet改进版
- 最高减少75%的KV缓存占用,解码吞吐量显著提升
- 已在FLA开源KDA内核,并发布两个基于5.7万亿token训练的模型检查点
- 采用3:1的KDA/全局MLA混合架构,在保证质量同时降低内存消耗
- 在1.4万亿token训练的长上下文和强化学习类基准测试中表现卓越
- 最高实现6倍解码加速,有效降低单输出token耗时(TPOT)
- 提供Python调用Kimi Linear模型的示例代码及vllm部署方案