Hasty Briefsbeta

双语

DatBench: Discriminative, faithful, and efficient VLM evaluations

4 months ago
  • #Evaluation Metrics
  • #Machine Learning
  • #Vision-Language Models
  • 实证评估对于指导基础模型(包括视觉语言模型VLM)的研究至关重要
  • 当前VLM评估常存在忠实性(反映真实使用场景)和区分性(辨别模型质量)的不足
  • 关键问题包括:多项选择形式助长猜测(某些评估中高达70%可盲目作答)、错误标注/模糊样本(最高占比42%)
  • 评估效率问题突出,近20%的开发算力被用于评估环节
  • 提出的解决方案包括:将选择题转为生成式任务(暴露出最高35%的能力下降)、过滤问题样本
  • 新推出的DatBench-Full和DatBench作为净化版评估套件,其中DatBench在保持区分力的同时实现13倍平均加速