Hasty Briefsbeta

双语

Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

8 months ago

#AI
#machine learning
#robotics

Gemini Robotics-ER 1.5现已作为首个广泛可用的机器人Gemini模型面向所有开发者开放
该模型专精于视觉空间理解、任务规划、进度评估，并能调用谷歌搜索或视觉-语言-动作模型等工具
其设计目标是处理需要上下文信息和多步骤执行的复杂机器人任务，例如根据当地回收规则分类物品
Gemini Robotics-ER 1.5充当机器人的高级推理中枢，可理解自然语言指令并编排复杂行为
该模型在时空推理方面表现卓越，能通过视频处理理解物体随时间的关联关系和动作变化
开发者可通过调整思考token预算来平衡不同复杂度任务下的延迟与精度
增强的安全功能包含有害内容过滤和危险物理动作拦截，但仍建议实施额外的安全工程措施
模型目前通过Google AI Studio和Gemini API提供预览版，是更广泛的Gemini Robotics系统的基础组件