Hasty Briefsbeta

双语

Benchmarking leading AI agents against Google reCAPTCHA v2

6 months ago

#AI Performance
#Machine Learning
#CAPTCHA Testing

Claude Sonnet 4.5在解决Google reCAPTCHA v2验证时以60%的成功率超越了Gemini 2.5 Pro和GPT-5
GPT-5表现显著较差（28%成功率），因其过度推理和规划能力不足导致频繁超时
所有模型在静态验证码上表现最佳，在跨图块挑战中表现最差，这暴露了AI的感知缺陷
重新加载类挑战因推理-行动循环问题导致智能体常将刷新误判为错误
跨图块挑战揭示了AI处理部分遮挡、边界跨越等不完整物体的能力缺陷
研究表明更多推理未必更好，实时任务中快速果断的决策更为关键
该评估使用Browser Use框架进行——一个开源的浏览器AI任务测试平台
由于验证边界模糊和状态追踪缺失，智能体常突破五次尝试的限制