Hasty Briefsbeta

双语

Why Computer-Use Agents Should Think Less

9 months ago
  • #AI
  • #Human-Computer Interaction
  • #Machine Learning
  • Archon是一款计算机副驾驶助手,在OpenAI的GPT-5黑客松比赛中荣获第三名。
  • 它采用微型视觉模型实现快速响应,并利用GPT-5进行行动规划的推理。
  • Archon常驻屏幕底部,允许用户用自然语言输入指令。
  • 系统会截取屏幕截图,用GPT-5规划行动,并通过微调模型执行点击和键盘操作。
  • 在赛车游戏演示中,Archon能遵循指令使用WASD键控制赛道导航。
  • 该工具充分发挥GPT-5的高级推理能力,应用于开发、调试和训练场景。
  • 采用分层架构:GPT-5负责行动规划,Archon-Mini执行精准点击操作。
  • Archon-Mini是基于70亿参数Qwen-2.5-VL微调的图形界面定位模型。
  • 系统通过自适应推理机制优化算力分配,平衡准确性与延迟以满足不同需求。
  • 未来计划包括构建流式捕获管道,并将规划方案蒸馏到本地模型以加速执行。
  • 最终目标是打造'自动驾驶计算机',其设计灵感源自特斯拉端到端神经网络方案。