Hasty Briefsbeta

双语

Gemini 2.5 Computer Use model

7 months ago

#AI
#User Interface
#Automation

Gemini 2.5计算机视觉模型正式发布，该模型基于Gemini 2.5 Pro的视觉理解与推理能力构建
该模型支持智能体通过用户界面(UI)执行表单填写、点击操作和页面滚动等交互任务
在网络和移动端控制基准测试中，其表现优于主流替代方案且延迟更低
模型输入包括用户请求、屏幕截图和操作历史记录，可选择性排除特定内容或添加自定义功能
采用循环工作机制：分析输入→生成界面操作→执行动作→循环直至任务完成
针对网页浏览器进行优化，具备移动端UI控制潜力，但暂不支持桌面操作系统级任务
内置安全防护机制，可降低滥用风险、规避异常行为及防止提示词注入攻击
开发者可实施额外安全管控，例如分步骤安全检查与系统指令限制
早期测试者已将其应用于UI测试、个人助手和工作流自动化等场景
现通过Google AI Studio和Vertex AI的Gemini API开放公测，提供演示案例和技术文档