Expected Attention: KV Cache Compression by Estimating Attention
7 months ago
- #Machine Learning
- #Natural Language Processing
- #Artificial Intelligence
- 提出'预期注意力'方法——一种无需训练的大语言模型KV缓存压缩技术
- 通过预测未来查询的注意力分布来评估KV对重要性,利用LLM激活值的分布特性
- 在预填充和解码阶段均可无缝运行,性能超越现有最优基线方法
- 开源KVPress工具库,集成20余种KV缓存压缩算法的实现与基准测试