Why Computer-Use Agents Should Think Less
9 months ago
- #AI
- #Human-Computer Interaction
- #Machine Learning
- Archon是一款计算机副驾驶助手,在OpenAI的GPT-5黑客松比赛中荣获第三名。
- 它采用微型视觉模型实现快速响应,并利用GPT-5进行行动规划的推理。
- Archon常驻屏幕底部,允许用户用自然语言输入指令。
- 系统会截取屏幕截图,用GPT-5规划行动,并通过微调模型执行点击和键盘操作。
- 在赛车游戏演示中,Archon能遵循指令使用WASD键控制赛道导航。
- 该工具充分发挥GPT-5的高级推理能力,应用于开发、调试和训练场景。
- 采用分层架构:GPT-5负责行动规划,Archon-Mini执行精准点击操作。
- Archon-Mini是基于70亿参数Qwen-2.5-VL微调的图形界面定位模型。
- 系统通过自适应推理机制优化算力分配,平衡准确性与延迟以满足不同需求。
- 未来计划包括构建流式捕获管道,并将规划方案蒸馏到本地模型以加速执行。
- 最终目标是打造'自动驾驶计算机',其设计灵感源自特斯拉端到端神经网络方案。