Hasty Briefsbeta

双语

Fast KV Compaction via Attention Matching

3 months ago

#Machine Learning
#Natural Language Processing
#Attention Mechanisms

将语言模型扩展到长上下文场景的瓶颈在于键值（KV）缓存的容量限制
现有的长上下文管理方法依赖基于词元空间的摘要技术，这种方式存在信息损失且可能损害模型性能
Cartridges最新研究表明，潜在空间中的紧凑KV缓存能达到完整上下文性能，但需要耗时昂贵的优化过程
本文提出注意力匹配技术，实现潜在空间的快速上下文压缩，保持注意力输出和每个KV头的质量分布
该方法可分解为具有高效闭式解的简单子问题，显著改善了压缩速度与质量之间的权衡
实验结果显示在部分数据集上实现50倍压缩仅需数秒，且质量损失极小