Consistency diffusion language models: Up to 14x faster, no quality loss

3 months ago

一致性扩散语言模型（CDLM）通过将基于一致性的多令牌终止机制与分块KV缓存技术相结合，显著加速扩散语言模型推理，在数学和编程任务上实现高达14.5倍的延迟加速。
扩散语言模型（DLMs）通过多步采样迭代优化部分掩码序列，支持并行生成和双向上下文利用，适用于文本填充和润色等任务。
传统DLMs在完全双向注意力机制下存在KV缓存不兼容问题，且需要大量优化步骤维持质量，导致推理成本高昂。
CDLM通过训练后优化方案解决这些低效问题，实现可靠的低步数推理和精确的分块KV缓存。
CDLM训练包含轨迹收集、块因果学生模型、注意力掩码构建，以及蒸馏损失/一致性损失/辅助DLM掩码去噪损失的联合最小化。
推理时CDLM采用分块自回归解码，结合置信度阈值并行终止和早停机制，专注于精确KV缓存和可靠步数缩减。
CDLM-Dream在数学和编程任务中实现显著步数缩减（4.1-7.7倍）和延迟改善（最高14.5倍），同时保持竞争力精度。
分块DLMs（CDLM）平衡算术强度与内存访问，相比自回归解码和原始DLMs更适应小批量场景。
随着DLM主干模型增强，CDLM的优势将进一步放大，因其可应用于任何块扩散模型。
CDLM在保持块内双向上下文的同时实现精确KV缓存，保留局部优化能力并提升推理效率。

Hasty Briefsbeta