Introspective Diffusion Language Models
2 days ago
- #diffusion models
- #parallel decoding
- #language models
- AR模型与其自身生成结果一致,但扩散语言模型(DLMs)通常不一致,导致质量差距。
- I-DLM引入了自省跨步解码(ISD)技术,可在同一次前向传播中生成新标记时验证先前生成的标记。
- I-DLM-8B模型在同等规模下匹配了AR模型的质量,以一半的参数量在AIME-24(+26)和LiveCodeBench-v6(+15)等基准测试中超越LLaDA-2.1-mini(16B)。
- 它在高并发下实现2.9-4.1倍吞吐量,并通过门控LoRA技术实现逐比特无损加速。
- I-DLM是首个在同等规模下匹配AR模型质量的DLM,在15项基准测试中全面超越以往所有DLM。
- 该方法可直接集成至SGLang进行生产部署,无需定制基础设施,具备分页KV缓存和连续批处理功能。
- 该论文提供了模型库、训练方案和基准评估,确保可复现性和部署便利性。