Hasty Briefsbeta

双语

Mirrors: The Blind Spot of Image and Video Generation Models

a year ago
  • #Reflections
  • #Image Generation
  • #AI
  • 图像生成模型的最新进展难以准确呈现镜面反射效果
  • 评估了五款图像生成模型(Gemini、Adobe Firefly、Bing、Ideogram、Freepik)和四款视频生成模型(veed.io、pollo.ai、ltx.studio、vidnoz.com)
  • 常见问题包括反射扭曲、不一致或缺失,在人物和物体场景中尤为明显
  • Gemini和Ideogram存在重复性反射错误,Adobe Firefly与Bing则出现严重错位
  • 视频模型在动态反射处理上也存在缺陷,削弱真实感
  • 提出改进方案:优化架构、增强训练数据、基于物理的渲染技术、显式反射建模
  • 反射处理难题暴露了3D场景理解的不足,影响医学影像和自动驾驶等应用领域