DLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
a year ago
- #Machine Learning
- #Natural Language Processing
- #Diffusion Models
- 介绍dLLM-Cache框架——一种加速基于扩散的大型语言模型(dLLMs)的创新方案
- dLLMs通过迭代去噪掩码片段生成文本,与自回归模型(ARMs)的工作原理存在本质差异
- 由于双向注意力机制的特性,传统ARM加速技术(如键值缓存)无法直接适用于dLLMs
- dLLM-Cache通过静态提示词与部分动态响应的智能结合,实现了中间计算结果的高效复用
- 该框架创新性地融合了长间隔提示缓存与基于特征相似度的局部响应更新机制
- 在LLaDA 8B和Dream 7B上的实验显示,最高可获得9.1倍加速且保持输出质量无损
- dLLM-Cache显著降低了推理延迟,使dLLMs在多数场景下的性能接近ARM水平
- 项目代码将在GitHub平台开源发布