DatBench: Discriminative, faithful, and efficient VLM evaluations
4 months ago
- #Evaluation Metrics
- #Machine Learning
- #Vision-Language Models
- 实证评估对于指导基础模型(包括视觉语言模型VLM)的研究至关重要
- 当前VLM评估常存在忠实性(反映真实使用场景)和区分性(辨别模型质量)的不足
- 关键问题包括:多项选择形式助长猜测(某些评估中高达70%可盲目作答)、错误标注/模糊样本(最高占比42%)
- 评估效率问题突出,近20%的开发算力被用于评估环节
- 提出的解决方案包括:将选择题转为生成式任务(暴露出最高35%的能力下降)、过滤问题样本
- 新推出的DatBench-Full和DatBench作为净化版评估套件,其中DatBench在保持区分力的同时实现13倍平均加速