Hasty Briefsbeta

双语

Browser Agent Benchmark: Comparing LLM models for web automation

4 months ago
  • #Web Automation
  • #LLM
  • #Benchmark
  • Browser Use 开发了一个开源基准测试,用于比较LLM模型在网页自动化任务中的表现。
  • 该基准包含100项任务,来源包括WebBench、Mind2Web、GAIA、BrowseComp及自定义挑战。
  • 任务筛选基于难度,剔除了过于简单或不可能完成的任务,聚焦于困难但可实现的项目。
  • 由LLM裁判评估任务完成度,其中GPT-4o和后续的gemini-2.5-flash与人类判断一致性最高。
  • 裁判判断与人类评估一致性达87%,差异主要出现在部分成功或技术细节的判定上。
  • ChatBrowserUse 2 API是当前基准测试中表现最优的模型,近期模型成功率已突破60%。
  • 基准代码已开源在GitHub,但运行评估需要大量资源,单次成本可达100美元。
  • Browser Use鼓励LLM提供商使用该基准来提升模型处理复杂网页任务的能力。