Hasty Briefsbeta

双语

How Google built its Gemini robotics models

a year ago

#Gemini
#AI
#robotics

谷歌DeepMind开发了新一代Gemini机器人模型家族，专为机器人设计打造
这些多模态模型基于Gemini 2.0架构，通过机器人专用数据微调，可实现物理动作与文本、视频、音频输出的协同控制
双机械臂ALOHA机器人成功完成了将笔放入鞋子、玩具篮球扣篮等新颖任务，展现了模型的强适应性
Gemini机器人模型具备高度灵巧性、交互性和通用性，使机器人能即时应对新物体、新环境和新指令而无需额外训练
机器人两大核心功能——理解决策（由Gemini Robotics-ER负责）与执行动作（由Gemini Robotics负责）得到专门优化
Gemini Robotics-ER擅长具身推理、物体检测和动作代码生成，而Gemini Robotics则在精细操作和多步骤任务完成方面取得突破
该模型可适配多种机器人形态，从学术研究用的ALOHA到类人机器人Apollo，展现出广泛的应用潜力
未来可能应用于复杂工业场景和家居等人类生活空间，但大规模普及仍需数年时间发展