Fast KV Compaction via Attention Matching
7 days ago
- #Machine Learning
- #Natural Language Processing
- #Attention Mechanisms
- 将语言模型扩展到长上下文场景的瓶颈在于键值(KV)缓存的容量限制
- 现有的长上下文管理方法依赖基于词元空间的摘要技术,这种方式存在信息损失且可能损害模型性能
- Cartridges最新研究表明,潜在空间中的紧凑KV缓存能达到完整上下文性能,但需要耗时昂贵的优化过程
- 本文提出注意力匹配技术,实现潜在空间的快速上下文压缩,保持注意力输出和每个KV头的质量分布
- 该方法可分解为具有高效闭式解的简单子问题,显著改善了压缩速度与质量之间的权衡
- 实验结果显示在部分数据集上实现50倍压缩仅需数秒,且质量损失极小