Hasty Briefsbeta

双语

Show HN: Alumnium – SOTA Browsing for Claude Code

2 months ago
  • #Benchmark
  • #AI
  • #WebVoyager
  • Alumnium MCP结合Claude Code在WebVoyager基准测试中达到98.5%准确率,创下新纪录
  • Alumnium是开源项目,完整共享了测试结果、会话记录及可复现代码
  • 该框架介于全自动浏览器代理与底层浏览器原语之间,提供do()/get()/check()等高级工具
  • 基准测试使用了Sonnet 4.6版Claude Code与GPT-5 Nano版Alumnium MCP 0.18
  • 测试包含610项任务,其中恢复了20个任务并更新了日期相关引用
  • Alumnium MCP的API调用总成本约5美元,单任务成本不足1美分
  • 该技术主要基于无障碍访问树实现,多数任务无需视觉识别
  • 实验表明:定制浏览器代理和现代浏览器栈未必是获得优异结果的必要条件
  • 未来计划将结果提交至Steel浏览器代理排行榜,并评估其他基准测试表现