PA Bench: Evaluating Frontier Models on Multi-Tab Pa Tasks
3 months ago
- #Web Automation
- #AI Agents
- #Benchmarking
- PA Bench是一个专为评估计算机使用代理在涉及多个网页应用的多步骤个人助理工作流程中的表现而设计的基准测试
- 该基准测试通过高保真模拟电子邮件和日历应用来确保评估结果的可重复性和可验证性
- 任务生成基于连贯的基础世界状态和场景模板,确保跨应用一致性和可解决性
- 基准测试SDK包含模拟管理、模型适配器和实验编排功能,以实现一致的评估
- Claude Opus 4.6以68.8%的成功率位居榜首,这归功于其恢复驱动行为和操作后验证机制
- Gemini 3 Pro展现出强大的规划能力但执行可靠性较弱,常因小错误导致任务失败
- Gemini 3 Flash在简单任务上表现良好,但在复杂且上下文密集的工作流中表现欠佳
- OpenAI计算机使用代理在控制流和上下文切换方面存在问题,导致频繁失败
- 未来工作包括将PA Bench扩展到3+应用和100+步骤的复杂场景,并改进自动化任务/验证器生成