ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference

7 months ago

ChunkLLM是一个轻量级可插拔框架，旨在通过解决基于Transformer模型的计算效率问题来加速大语言模型推理。
该框架引入两大核心组件：用于特征压缩和分块注意力的QK适配器（Q-Adapter与K-Adapter），以及通过上下文语义信息检测文本分块边界的Chunk Adapter。
训练过程中仅微调QK适配器和分块适配器，保持主干参数冻结，并通过注意力蒸馏方法提升关键分块召回率。
推理时仅在检测到分块边界时触发分块选择机制，从而实现性能优化。
ChunkLLM在短文本基准测试中保持可比性能，在长上下文基准测试中以48.58%的键值缓存保留率维持98.64%的原始性能。
该框架在处理12万字长文本时，相比原始Transformer模型最高可实现4.48倍的加速效果。

Hasty Briefsbeta