Hasty Briefsbeta

双语

Expected Attention: KV Cache Compression by Estimating Attention

7 months ago
  • #Machine Learning
  • #Natural Language Processing
  • #Artificial Intelligence
  • 提出'预期注意力'方法——一种无需训练的大语言模型KV缓存压缩技术
  • 通过预测未来查询的注意力分布来评估KV对重要性,利用LLM激活值的分布特性
  • 在预填充和解码阶段均可无缝运行,性能超越现有最优基线方法
  • 开源KVPress工具库,集成20余种KV缓存压缩算法的实现与基准测试