We're running out of benchmarks to upper bound AI capabilities

10 hours ago

从依赖已知解决方案的基准测试转向在未解问题上测量人工智能，例如FrontierMath的‘开放问题’或First Proof，以避免数据污染并同时比较不同模型。
标准基准测试正变得越来越昂贵且迅速饱和，正如GPQA所示；创建新基准需要大量时间和成本，人类基线可能超过一百万美元。
替代方法包括提升研究（如METR关于开发人员生产力的研究）、专家预测或意见征询以及第三方风险评估，但每种方法都存在后勤、时机或信任方面的挑战。
随着人工智能能力的进步，基准测试可能不再能有效界定风险上限，当发展速度超过测量能力时，有必要转向现实世界试点研究或更激进的措施。
讨论强调需要应对快速演进领域中测量人工智能的实际挑战，随着基准测试失效，应超越假设性解决方案，转向可操作的步骤。

Hasty Briefsbeta