Hasty Briefsbeta

双语

Lumina-DiMOO: An open-source discrete multimodal diffusion model

8 months ago

#diffusion models
#multimodal AI
#open-source

Lumina-DiMOO 是一个开源的多模态生成与理解基础模型
采用离散扩散建模技术处理跨模态的输入输出
相比自回归或混合AR-扩散范式具有更高的采样效率
支持文生图、图像编辑、修复及图像理解等任务
在多项基准测试中达到SOTA性能，超越现有开源模型
公开代码和模型检查点以促进多模态与离散扩散研究发展
在基准测试中超越SDXL、Emu3-Gen、SD3-Medium、DALL-E 3和GPT-4o等模型
在单物体、计数、颜色、位置及属性相关任务中表现突出
在全局理解、实体识别、属性分析、关系推理等任务展现强大性能
在POPE、MME-P、MMB、SEED和MMMU等基准测试中获得具有竞争力的分数