Hasty Briefsbeta

双语

Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

8 months ago
  • #AI
  • #machine learning
  • #robotics
  • Gemini Robotics-ER 1.5现已作为首个广泛可用的机器人Gemini模型面向所有开发者开放
  • 该模型专精于视觉空间理解、任务规划、进度评估,并能调用谷歌搜索或视觉-语言-动作模型等工具
  • 其设计目标是处理需要上下文信息和多步骤执行的复杂机器人任务,例如根据当地回收规则分类物品
  • Gemini Robotics-ER 1.5充当机器人的高级推理中枢,可理解自然语言指令并编排复杂行为
  • 该模型在时空推理方面表现卓越,能通过视频处理理解物体随时间的关联关系和动作变化
  • 开发者可通过调整思考token预算来平衡不同复杂度任务下的延迟与精度
  • 增强的安全功能包含有害内容过滤和危险物理动作拦截,但仍建议实施额外的安全工程措施
  • 模型目前通过Google AI Studio和Gemini API提供预览版,是更广泛的Gemini Robotics系统的基础组件