Hasty Briefsbeta

双语

Lumina-DiMOO: An open-source discrete multimodal diffusion model

8 months ago
  • #diffusion models
  • #multimodal AI
  • #open-source
  • Lumina-DiMOO 是一个开源的多模态生成与理解基础模型
  • 采用离散扩散建模技术处理跨模态的输入输出
  • 相比自回归或混合AR-扩散范式具有更高的采样效率
  • 支持文生图、图像编辑、修复及图像理解等任务
  • 在多项基准测试中达到SOTA性能,超越现有开源模型
  • 公开代码和模型检查点以促进多模态与离散扩散研究发展
  • 在基准测试中超越SDXL、Emu3-Gen、SD3-Medium、DALL-E 3和GPT-4o等模型
  • 在单物体、计数、颜色、位置及属性相关任务中表现突出
  • 在全局理解、实体识别、属性分析、关系推理等任务展现强大性能
  • 在POPE、MME-P、MMB、SEED和MMMU等基准测试中获得具有竞争力的分数