Exploiting Local KV Cache Asymmetry for Long-Context LLMs
a year ago
- #LLMs
- #KV Cache
- #Compression
- KV缓存压缩对LLMs长上下文高效建模至关重要
- 键值存在不对称性:键呈现局部同质性,而值具有异质性
- 现有压缩方法未能解决这种不对称性,对键值采用统一处理
- 提出的AsymKV框架结合键合并与无损值压缩技术
- AsymKV优于SOTA方法,如在LongBench上达43.95分,对比H$_2$O的38.89分