Hasty Briefsbeta

双语

Consistency diffusion language models: Up to 14x faster, no quality loss

7 days ago
  • #AI
  • #Language Models
  • #Diffusion Models
  • 一致性扩散语言模型(CDLM)通过将基于一致性的多令牌终止机制与分块KV缓存技术相结合,显著加速扩散语言模型推理,在数学和编程任务上实现高达14.5倍的延迟加速。
  • 扩散语言模型(DLMs)通过多步采样迭代优化部分掩码序列,支持并行生成和双向上下文利用,适用于文本填充和润色等任务。
  • 传统DLMs在完全双向注意力机制下存在KV缓存不兼容问题,且需要大量优化步骤维持质量,导致推理成本高昂。
  • CDLM通过训练后优化方案解决这些低效问题,实现可靠的低步数推理和精确的分块KV缓存。
  • CDLM训练包含轨迹收集、块因果学生模型、注意力掩码构建,以及蒸馏损失/一致性损失/辅助DLM掩码去噪损失的联合最小化。
  • 推理时CDLM采用分块自回归解码,结合置信度阈值并行终止和早停机制,专注于精确KV缓存和可靠步数缩减。
  • CDLM-Dream在数学和编程任务中实现显著步数缩减(4.1-7.7倍)和延迟改善(最高14.5倍),同时保持竞争力精度。
  • 分块DLMs(CDLM)平衡算术强度与内存访问,相比自回归解码和原始DLMs更适应小批量场景。
  • 随着DLM主干模型增强,CDLM的优势将进一步放大,因其可应用于任何块扩散模型。
  • CDLM在保持块内双向上下文的同时实现精确KV缓存,保留局部优化能力并提升推理效率。