Gemini 2.5 Computer Use model
7 months ago
- #AI
- #User Interface
- #Automation
- Gemini 2.5计算机视觉模型正式发布,该模型基于Gemini 2.5 Pro的视觉理解与推理能力构建
- 该模型支持智能体通过用户界面(UI)执行表单填写、点击操作和页面滚动等交互任务
- 在网络和移动端控制基准测试中,其表现优于主流替代方案且延迟更低
- 模型输入包括用户请求、屏幕截图和操作历史记录,可选择性排除特定内容或添加自定义功能
- 采用循环工作机制:分析输入→生成界面操作→执行动作→循环直至任务完成
- 针对网页浏览器进行优化,具备移动端UI控制潜力,但暂不支持桌面操作系统级任务
- 内置安全防护机制,可降低滥用风险、规避异常行为及防止提示词注入攻击
- 开发者可实施额外安全管控,例如分步骤安全检查与系统指令限制
- 早期测试者已将其应用于UI测试、个人助手和工作流自动化等场景
- 现通过Google AI Studio和Vertex AI的Gemini API开放公测,提供演示案例和技术文档