Hasty Briefsbeta

双语

Gemini 2.5 Computer Use model

7 months ago
  • #AI
  • #User Interface
  • #Automation
  • Gemini 2.5计算机视觉模型正式发布,该模型基于Gemini 2.5 Pro的视觉理解与推理能力构建
  • 该模型支持智能体通过用户界面(UI)执行表单填写、点击操作和页面滚动等交互任务
  • 在网络和移动端控制基准测试中,其表现优于主流替代方案且延迟更低
  • 模型输入包括用户请求、屏幕截图和操作历史记录,可选择性排除特定内容或添加自定义功能
  • 采用循环工作机制:分析输入→生成界面操作→执行动作→循环直至任务完成
  • 针对网页浏览器进行优化,具备移动端UI控制潜力,但暂不支持桌面操作系统级任务
  • 内置安全防护机制,可降低滥用风险、规避异常行为及防止提示词注入攻击
  • 开发者可实施额外安全管控,例如分步骤安全检查与系统指令限制
  • 早期测试者已将其应用于UI测试、个人助手和工作流自动化等场景
  • 现通过Google AI Studio和Vertex AI的Gemini API开放公测,提供演示案例和技术文档