Hasty Briefsbeta

双语

DatBench: Discriminative, faithful, and efficient VLM evaluations

4 months ago

#Evaluation Metrics
#Machine Learning
#Vision-Language Models

实证评估对于指导基础模型（包括视觉语言模型VLM）的研究至关重要
当前VLM评估常存在忠实性（反映真实使用场景）和区分性（辨别模型质量）的不足
关键问题包括：多项选择形式助长猜测（某些评估中高达70%可盲目作答）、错误标注/模糊样本（最高占比42%）
评估效率问题突出，近20%的开发算力被用于评估环节
提出的解决方案包括：将选择题转为生成式任务（暴露出最高35%的能力下降）、过滤问题样本
新推出的DatBench-Full和DatBench作为净化版评估套件，其中DatBench在保持区分力的同时实现13倍平均加速