We accidentally solved robotics by watching 1M hours of YouTube
a year ago
- #AI
- #machine learning
- #robotics
- 文章探讨了为何单纯扩大语言模型(LLM)规模无法解决机器人问题,因为机器人需要理解物理规律而不仅是语言。
- V-JEPA 2作为解决方案被提出,该模型通过100万小时YouTube视频训练来预测现实中的下一时刻动态,而非仅预测下一个单词。
- 该模型采用10亿参数的ViT-g编码器理解物理场景,并通过预测器填补被遮蔽的视频片段。
- V-JEPA 2-AC版本进一步增加transformer模块,仅用62小时原始机器人视频就能预测动作结果。
- 模型展现出零样本泛化能力,在不同物体和光照的新环境中仍保持高成功率,如抓取等任务。
- 使用V-JEPA 2-AC进行规划比扩散模型快15倍(单次动作16秒 vs 4分钟)。
- 当与语言模型结合时,该模型在视频问答任务表现优异,挑战了『理解世界必须依赖语言监督』的传统认知。
- 局限性包括对摄像头位置敏感、长时规划存在偏差、需视觉目标而非语言指令等。
- 未来可能发展出与现实世界 grounding 能力媲美文本模型的世界模型,以及像ChatGPT理解语言那样精通物理规律的机器人。