Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
a year ago
- #multimodal reasoning
- #computer vision
- #machine learning
- 视觉语言模型(VLMs)在多模态理解方面表现出色,但受限于仅能进行文本解码。
- 该论文提出了机器心理意象(Mirage)框架,利用潜在视觉标记进行多模态推理,无需生成显式图像。
- Mirage将隐藏状态重构为后续标记以延续多模态轨迹,初期通过图像嵌入监督,后期仅需文本监督。
- 采用强化学习来增强多模态推理能力。
- 实验表明,Mirage无需显式图像生成即可提升多模态推理性能。