Hasty Briefsbeta

双语

ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference

7 months ago
  • #Inference Optimization
  • #LLM
  • #Transformer
  • ChunkLLM是一个轻量级可插拔框架,旨在通过解决基于Transformer模型的计算效率问题来加速大语言模型推理。
  • 该框架引入两大核心组件:用于特征压缩和分块注意力的QK适配器(Q-Adapter与K-Adapter),以及通过上下文语义信息检测文本分块边界的Chunk Adapter。
  • 训练过程中仅微调QK适配器和分块适配器,保持主干参数冻结,并通过注意力蒸馏方法提升关键分块召回率。
  • 推理时仅在检测到分块边界时触发分块选择机制,从而实现性能优化。
  • ChunkLLM在短文本基准测试中保持可比性能,在长上下文基准测试中以48.58%的键值缓存保留率维持98.64%的原始性能。
  • 该框架在处理12万字长文本时,相比原始Transformer模型最高可实现4.48倍的加速效果。