Hasty Briefsbeta

双语

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

a year ago

#multimodal reasoning
#computer vision
#machine learning

视觉语言模型（VLMs）在多模态理解方面表现出色，但受限于仅能进行文本解码。
该论文提出了机器心理意象（Mirage）框架，利用潜在视觉标记进行多模态推理，无需生成显式图像。
Mirage将隐藏状态重构为后续标记以延续多模态轨迹，初期通过图像嵌入监督，后期仅需文本监督。
采用强化学习来增强多模态推理能力。
实验表明，Mirage无需显式图像生成即可提升多模态推理性能。