Hasty Briefsbeta

双语

HLE-Verified: A Verification and Revision of Humanity's Last Exam

3 days ago
  • #evaluation
  • #language-models
  • #benchmarking
  • HLE-Verified是人类最终考试(HLE)的验证修订版,解决了原基准测试中干扰项的问题。
  • 该数据集通过两阶段验证-修复流程构建,最终包含641个已验证项目和1,170个修订认证项目。
  • 另发布689个项目作为有据可查的待优化集供未来改进。
  • 对七个前沿语言模型的评估显示,在HLE-Verified上平均准确率提升7-10个百分点。
  • 在存在错误问题陈述或参考答案的项目上观察到显著改进(30-40个百分点)。
  • 模型置信度与问题陈述或参考答案中的错误存在强关联。
  • HLE-Verified旨在减少标注噪声,实现更精准的模型能力评估。