Show HN: Alumnium – SOTA Browsing for Claude Code
2 months ago
- #Benchmark
- #AI
- #WebVoyager
- Alumnium MCP结合Claude Code在WebVoyager基准测试中达到98.5%准确率,创下新纪录
- Alumnium是开源项目,完整共享了测试结果、会话记录及可复现代码
- 该框架介于全自动浏览器代理与底层浏览器原语之间,提供do()/get()/check()等高级工具
- 基准测试使用了Sonnet 4.6版Claude Code与GPT-5 Nano版Alumnium MCP 0.18
- 测试包含610项任务,其中恢复了20个任务并更新了日期相关引用
- Alumnium MCP的API调用总成本约5美元,单任务成本不足1美分
- 该技术主要基于无障碍访问树实现,多数任务无需视觉识别
- 实验表明:定制浏览器代理和现代浏览器栈未必是获得优异结果的必要条件
- 未来计划将结果提交至Steel浏览器代理排行榜,并评估其他基准测试表现