Hasty Briefsbeta

双语

Fast KV Compaction via Attention Matching

7 days ago
  • #Machine Learning
  • #Natural Language Processing
  • #Attention Mechanisms
  • 将语言模型扩展到长上下文场景的瓶颈在于键值(KV)缓存的容量限制
  • 现有的长上下文管理方法依赖基于词元空间的摘要技术,这种方式存在信息损失且可能损害模型性能
  • Cartridges最新研究表明,潜在空间中的紧凑KV缓存能达到完整上下文性能,但需要耗时昂贵的优化过程
  • 本文提出注意力匹配技术,实现潜在空间的快速上下文压缩,保持注意力输出和每个KV头的质量分布
  • 该方法可分解为具有高效闭式解的简单子问题,显著改善了压缩速度与质量之间的权衡
  • 实验结果显示在部分数据集上实现50倍压缩仅需数秒,且质量损失极小