Hasty Briefsbeta

双语

Benchmarking leading AI agents against Google reCAPTCHA v2

6 months ago
  • #AI Performance
  • #Machine Learning
  • #CAPTCHA Testing
  • Claude Sonnet 4.5在解决Google reCAPTCHA v2验证时以60%的成功率超越了Gemini 2.5 Pro和GPT-5
  • GPT-5表现显著较差(28%成功率),因其过度推理和规划能力不足导致频繁超时
  • 所有模型在静态验证码上表现最佳,在跨图块挑战中表现最差,这暴露了AI的感知缺陷
  • 重新加载类挑战因推理-行动循环问题导致智能体常将刷新误判为错误
  • 跨图块挑战揭示了AI处理部分遮挡、边界跨越等不完整物体的能力缺陷
  • 研究表明更多推理未必更好,实时任务中快速果断的决策更为关键
  • 该评估使用Browser Use框架进行——一个开源的浏览器AI任务测试平台
  • 由于验证边界模糊和状态追踪缺失,智能体常突破五次尝试的限制