HLE-Verified: A Verification and Revision of Humanity's Last Exam
3 days ago
- #evaluation
- #language-models
- #benchmarking
- HLE-Verified是人类最终考试(HLE)的验证修订版,解决了原基准测试中干扰项的问题。
- 该数据集通过两阶段验证-修复流程构建,最终包含641个已验证项目和1,170个修订认证项目。
- 另发布689个项目作为有据可查的待优化集供未来改进。
- 对七个前沿语言模型的评估显示,在HLE-Verified上平均准确率提升7-10个百分点。
- 在存在错误问题陈述或参考答案的项目上观察到显著改进(30-40个百分点)。
- 模型置信度与问题陈述或参考答案中的错误存在强关联。
- HLE-Verified旨在减少标注噪声,实现更精准的模型能力评估。