Hasty Briefsbeta

双语

Introspective Diffusion Language Models

2 days ago
  • #diffusion models
  • #parallel decoding
  • #language models
  • AR模型与其自身生成结果一致,但扩散语言模型(DLMs)通常不一致,导致质量差距。
  • I-DLM引入了自省跨步解码(ISD)技术,可在同一次前向传播中生成新标记时验证先前生成的标记。
  • I-DLM-8B模型在同等规模下匹配了AR模型的质量,以一半的参数量在AIME-24(+26)和LiveCodeBench-v6(+15)等基准测试中超越LLaDA-2.1-mini(16B)。
  • 它在高并发下实现2.9-4.1倍吞吐量,并通过门控LoRA技术实现逐比特无损加速。
  • I-DLM是首个在同等规模下匹配AR模型质量的DLM,在15项基准测试中全面超越以往所有DLM。
  • 该方法可直接集成至SGLang进行生产部署,无需定制基础设施,具备分页KV缓存和连续批处理功能。
  • 该论文提供了模型库、训练方案和基准评估,确保可复现性和部署便利性。