Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5
8 months ago
- #AI
- #machine learning
- #robotics
- Gemini Robotics-ER 1.5现已作为首个广泛可用的机器人Gemini模型面向所有开发者开放
- 该模型专精于视觉空间理解、任务规划、进度评估,并能调用谷歌搜索或视觉-语言-动作模型等工具
- 其设计目标是处理需要上下文信息和多步骤执行的复杂机器人任务,例如根据当地回收规则分类物品
- Gemini Robotics-ER 1.5充当机器人的高级推理中枢,可理解自然语言指令并编排复杂行为
- 该模型在时空推理方面表现卓越,能通过视频处理理解物体随时间的关联关系和动作变化
- 开发者可通过调整思考token预算来平衡不同复杂度任务下的延迟与精度
- 增强的安全功能包含有害内容过滤和危险物理动作拦截,但仍建议实施额外的安全工程措施
- 模型目前通过Google AI Studio和Gemini API提供预览版,是更广泛的Gemini Robotics系统的基础组件