Lumina-DiMOO: An open-source discrete multimodal diffusion model
8 months ago
- #diffusion models
- #multimodal AI
- #open-source
- Lumina-DiMOO 是一个开源的多模态生成与理解基础模型
- 采用离散扩散建模技术处理跨模态的输入输出
- 相比自回归或混合AR-扩散范式具有更高的采样效率
- 支持文生图、图像编辑、修复及图像理解等任务
- 在多项基准测试中达到SOTA性能,超越现有开源模型
- 公开代码和模型检查点以促进多模态与离散扩散研究发展
- 在基准测试中超越SDXL、Emu3-Gen、SD3-Medium、DALL-E 3和GPT-4o等模型
- 在单物体、计数、颜色、位置及属性相关任务中表现突出
- 在全局理解、实体识别、属性分析、关系推理等任务展现强大性能
- 在POPE、MME-P、MMB、SEED和MMMU等基准测试中获得具有竞争力的分数