Hasty Briefsbeta

双语

Multimodal Diffusion Language Models for Thinking-Aware Editing and Generation

5 months ago

#diffusion-models
#AI-alignment
#multimodal

现有的顺序自回归方法会因思维感知生成中的错误传播而导致性能下降。
ParaBench作为评估文本和图像输出模态的新基准被提出。
性能下降与生成推理和最终图像之间的对齐不良有关。
MMaDA-Parallel（并行多模态扩散框架）实现了文本与图像间的持续双向交互。
ParaRL（并行强化学习）通过跨模态一致性语义奖励优化MMaDA-Parallel。
在ParaBench上，MMaDA-Parallel的输出对齐指标相比最先进模型Bagel提升6.9%。
发布两个80亿参数模型MMaDA-Parallel-A和MMaDA-Parallel-M，采用不同分词器。
模型已在合成数据集验证，但尚未测试人脸等分布外输入。
提供本地运行或推理脚本的安装使用说明。
未来计划包括优化MMaDA-Parallel-M模型，并发布SFT与ParaRL的训练代码。