Hasty Briefsbeta

双语

Kimi Linear: An Expressive, Efficient Attention Architecture

7 months ago

#linear-attention
#machine-learning
#efficiency

Kimi Linear模型在MMLU-Pro基准测试中取得51.0分，速度与完全注意力机制相当
在128k上下文长度的RULER测试中，展现帕累托最优性能（84.3分）并实现3.98倍加速
Kimi Linear的TPOT速度比MLA快6.3倍，尤其在百万token长序列场景优势显著
Kimi Delta Attention（KDA）是带高效门控机制的Gated DeltaNet改进版
最高减少75%的KV缓存占用，解码吞吐量显著提升
已在FLA开源KDA内核，并发布两个基于5.7万亿token训练的模型检查点
采用3:1的KDA/全局MLA混合架构，在保证质量同时降低内存消耗
在1.4万亿token训练的长上下文和强化学习类基准测试中表现卓越
最高实现6倍解码加速，有效降低单输出token耗时（TPOT）
提供Python调用Kimi Linear模型的示例代码及vllm部署方案