Hasty Briefsbeta

双语

Browser Agent Benchmark: Comparing LLM models for web automation

4 months ago

#Web Automation
#LLM
#Benchmark

Browser Use 开发了一个开源基准测试，用于比较LLM模型在网页自动化任务中的表现。
该基准包含100项任务，来源包括WebBench、Mind2Web、GAIA、BrowseComp及自定义挑战。
任务筛选基于难度，剔除了过于简单或不可能完成的任务，聚焦于困难但可实现的项目。
由LLM裁判评估任务完成度，其中GPT-4o和后续的gemini-2.5-flash与人类判断一致性最高。
裁判判断与人类评估一致性达87%，差异主要出现在部分成功或技术细节的判定上。
ChatBrowserUse 2 API是当前基准测试中表现最优的模型，近期模型成功率已突破60%。
基准代码已开源在GitHub，但运行评估需要大量资源，单次成本可达100美元。
Browser Use鼓励LLM提供商使用该基准来提升模型处理复杂网页任务的能力。