The latest AI scaling graph – and why it hardly makes sense
a year ago
- #AI
- #Critique
- #Scaling
- METR发布了一项关于AI在软件相关任务中表现的研究,其数据图表在网络上迅速走红
- 该图表纵轴采用人类解决问题耗时来衡量AI性能,被批评为存在主观随意性和方法论缺陷
- METR的技术报告表述严谨,但社交媒体传播夸大了研究结论,超出了原始研究范围
- 软件任务数据集构建完善,但可能无法推广到其他认知领域
- 从该图表外推AI能力被认为存在误导性,指数级增长的假设并不可靠
- 在AI领域,投资者比实际开发者更容易出现确认偏误和炒作现象