Hacking Diffusion into Qwen3 for the Arc Challenge
19 days ago
- #Abstract Reasoning
- #AI Research
- #Diffusion Models
- 作者尝试将自回归的Qwen3-8B模型转换为扩散模型来解决ARC(抽象推理语料库)任务。
- 关键发现包括:扩散模型在10个时间步长时能达到更高的token准确率(85.7% vs 82.6%),同时比自回归模型快1.68倍。
- 但扩散模型难以生成完美解决方案(10步时0% vs 自回归0.8%),这对ARC任务至关重要——单个错误像素即意味着失败。
- 扩散方法展现出'先易后难'的涌现行为,会优先填充置信度高的token(无论位置),但这并未转化为更高的任务解决率。
- 主要瓶颈包括无法缓存计算(KV缓存)以及需要在每个时间步对长序列(最长6144个token)重新计算注意力。
- 作者建议未来改进方向:缓存静态输入部分、持续训练、开发更好的采样策略以与深度优先搜索竞争。
- 训练过程采用rank-256的LoRA适配模型,使用带吸收状态的离散扩散方法,并在三个增强数据集上进行训练。
- 结果显示扩散模型在小型任务(<100个token)上表现尤其差,9个案例中有8次未能预测正确输出维度。
- 该项目由Lambda Labs计算积分支持,并使用Manim Community制作可视化图表。