Hasty Briefsbeta

双语

Expected Attention: KV Cache Compression by Estimating Attention

7 months ago

#Machine Learning
#Natural Language Processing
#Artificial Intelligence

提出'预期注意力'方法——一种无需训练的大语言模型KV缓存压缩技术
通过预测未来查询的注意力分布来评估KV对重要性，利用LLM激活值的分布特性
在预填充和解码阶段均可无缝运行，性能超越现有最优基线方法
开源KVPress工具库，集成20余种KV缓存压缩算法的实现与基准测试