Hasty Briefsbeta

双语

Study shows vision-language models can't handle queries with negation words

a year ago

#vision-language models
#negation understanding
#machine learning

麻省理工学院研究人员发现，视觉语言模型（VLM）难以理解'不'、'没有'等否定词
在处理涉及否定的任务时（例如检索不包含特定物体的图像，或回答带有否定描述的提问），视觉语言模型表现普遍较差
研究团队创建了包含否定描述的测试数据集，使模型在图像检索任务中准确率提升10%，问答任务提升30%
由于肯定性偏见，视觉语言模型会忽略否定词，仅关注图像中实际存在的物体
该研究警示了在医疗等高风险领域应用视觉语言模型时，若未解决其否定理解缺陷可能带来的风险
未来研究方向包括：分别训练文本与图像处理模块，或为医疗等专业领域开发专用数据集