Benchmarking leading AI agents against Google reCAPTCHA v2
6 months ago
- #AI Performance
- #Machine Learning
- #CAPTCHA Testing
- Claude Sonnet 4.5在解决Google reCAPTCHA v2验证时以60%的成功率超越了Gemini 2.5 Pro和GPT-5
- GPT-5表现显著较差(28%成功率),因其过度推理和规划能力不足导致频繁超时
- 所有模型在静态验证码上表现最佳,在跨图块挑战中表现最差,这暴露了AI的感知缺陷
- 重新加载类挑战因推理-行动循环问题导致智能体常将刷新误判为错误
- 跨图块挑战揭示了AI处理部分遮挡、边界跨越等不完整物体的能力缺陷
- 研究表明更多推理未必更好,实时任务中快速果断的决策更为关键
- 该评估使用Browser Use框架进行——一个开源的浏览器AI任务测试平台
- 由于验证边界模糊和状态追踪缺失,智能体常突破五次尝试的限制