Hasty Briefsbeta

双语

Study shows vision-language models can't handle queries with negation words

a year ago
  • #vision-language models
  • #negation understanding
  • #machine learning
  • 麻省理工学院研究人员发现,视觉语言模型(VLM)难以理解'不'、'没有'等否定词
  • 在处理涉及否定的任务时(例如检索不包含特定物体的图像,或回答带有否定描述的提问),视觉语言模型表现普遍较差
  • 研究团队创建了包含否定描述的测试数据集,使模型在图像检索任务中准确率提升10%,问答任务提升30%
  • 由于肯定性偏见,视觉语言模型会忽略否定词,仅关注图像中实际存在的物体
  • 该研究警示了在医疗等高风险领域应用视觉语言模型时,若未解决其否定理解缺陷可能带来的风险
  • 未来研究方向包括:分别训练文本与图像处理模块,或为医疗等专业领域开发专用数据集