Hasty Briefsbeta

Hacking Diffusion into Qwen3 for the Arc Challenge

19 days ago

https://www.matthewnewton.com/blog/arc-challenge-diffusion

Copy Link

#Abstract Reasoning
#AI Research
#Diffusion Models

作者尝试将自回归的Qwen3-8B模型转换为扩散模型来解决ARC（抽象推理语料库）任务。
关键发现包括：扩散模型在10个时间步长时能达到更高的token准确率（85.7% vs 82.6%），同时比自回归模型快1.68倍。
但扩散模型难以生成完美解决方案（10步时0% vs 自回归0.8%），这对ARC任务至关重要——单个错误像素即意味着失败。
扩散方法展现出'先易后难'的涌现行为，会优先填充置信度高的token（无论位置），但这并未转化为更高的任务解决率。
主要瓶颈包括无法缓存计算（KV缓存）以及需要在每个时间步对长序列（最长6144个token）重新计算注意力。
作者建议未来改进方向：缓存静态输入部分、持续训练、开发更好的采样策略以与深度优先搜索竞争。
训练过程采用rank-256的LoRA适配模型，使用带吸收状态的离散扩散方法，并在三个增强数据集上进行训练。
结果显示扩散模型在小型任务（<100个token）上表现尤其差，9个案例中有8次未能预测正确输出维度。
该项目由Lambda Labs计算积分支持，并使用Manim Community制作可视化图表。