We're running out of benchmarks to upper bound AI capabilities
10 hours ago
- #AI benchmarking
- #capability measurement
- #risk assessment
- 从依赖已知解决方案的基准测试转向在未解问题上测量人工智能,例如FrontierMath的‘开放问题’或First Proof,以避免数据污染并同时比较不同模型。
- 标准基准测试正变得越来越昂贵且迅速饱和,正如GPQA所示;创建新基准需要大量时间和成本,人类基线可能超过一百万美元。
- 替代方法包括提升研究(如METR关于开发人员生产力的研究)、专家预测或意见征询以及第三方风险评估,但每种方法都存在后勤、时机或信任方面的挑战。
- 随着人工智能能力的进步,基准测试可能不再能有效界定风险上限,当发展速度超过测量能力时,有必要转向现实世界试点研究或更激进的措施。
- 讨论强调需要应对快速演进领域中测量人工智能的实际挑战,随着基准测试失效,应超越假设性解决方案,转向可操作的步骤。