Hasty Briefsbeta

双语

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

a year ago
  • #multimodal reasoning
  • #computer vision
  • #machine learning
  • 视觉语言模型(VLMs)在多模态理解方面表现出色,但受限于仅能进行文本解码。
  • 该论文提出了机器心理意象(Mirage)框架,利用潜在视觉标记进行多模态推理,无需生成显式图像。
  • Mirage将隐藏状态重构为后续标记以延续多模态轨迹,初期通过图像嵌入监督,后期仅需文本监督。
  • 采用强化学习来增强多模态推理能力。
  • 实验表明,Mirage无需显式图像生成即可提升多模态推理性能。