How Google built its Gemini robotics models
a year ago
- #Gemini
- #AI
- #robotics
- 谷歌DeepMind开发了新一代Gemini机器人模型家族,专为机器人设计打造
- 这些多模态模型基于Gemini 2.0架构,通过机器人专用数据微调,可实现物理动作与文本、视频、音频输出的协同控制
- 双机械臂ALOHA机器人成功完成了将笔放入鞋子、玩具篮球扣篮等新颖任务,展现了模型的强适应性
- Gemini机器人模型具备高度灵巧性、交互性和通用性,使机器人能即时应对新物体、新环境和新指令而无需额外训练
- 机器人两大核心功能——理解决策(由Gemini Robotics-ER负责)与执行动作(由Gemini Robotics负责)得到专门优化
- Gemini Robotics-ER擅长具身推理、物体检测和动作代码生成,而Gemini Robotics则在精细操作和多步骤任务完成方面取得突破
- 该模型可适配多种机器人形态,从学术研究用的ALOHA到类人机器人Apollo,展现出广泛的应用潜力
- 未来可能应用于复杂工业场景和家居等人类生活空间,但大规模普及仍需数年时间发展