Study shows vision-language models can't handle queries with negation words
a year ago
- #vision-language models
- #negation understanding
- #machine learning
- 麻省理工学院研究人员发现,视觉语言模型(VLM)难以理解'不'、'没有'等否定词
- 在处理涉及否定的任务时(例如检索不包含特定物体的图像,或回答带有否定描述的提问),视觉语言模型表现普遍较差
- 研究团队创建了包含否定描述的测试数据集,使模型在图像检索任务中准确率提升10%,问答任务提升30%
- 由于肯定性偏见,视觉语言模型会忽略否定词,仅关注图像中实际存在的物体
- 该研究警示了在医疗等高风险领域应用视觉语言模型时,若未解决其否定理解缺陷可能带来的风险
- 未来研究方向包括:分别训练文本与图像处理模块,或为医疗等专业领域开发专用数据集