Hasty Briefsbeta

双语

We accidentally solved robotics by watching 1M hours of YouTube

a year ago

#AI
#machine learning
#robotics

文章探讨了为何单纯扩大语言模型(LLM)规模无法解决机器人问题，因为机器人需要理解物理规律而不仅是语言。
V-JEPA 2作为解决方案被提出，该模型通过100万小时YouTube视频训练来预测现实中的下一时刻动态，而非仅预测下一个单词。
该模型采用10亿参数的ViT-g编码器理解物理场景，并通过预测器填补被遮蔽的视频片段。
V-JEPA 2-AC版本进一步增加transformer模块，仅用62小时原始机器人视频就能预测动作结果。
模型展现出零样本泛化能力，在不同物体和光照的新环境中仍保持高成功率，如抓取等任务。
使用V-JEPA 2-AC进行规划比扩散模型快15倍(单次动作16秒 vs 4分钟)。
当与语言模型结合时，该模型在视频问答任务表现优异，挑战了『理解世界必须依赖语言监督』的传统认知。
局限性包括对摄像头位置敏感、长时规划存在偏差、需视觉目标而非语言指令等。
未来可能发展出与现实世界 grounding 能力媲美文本模型的世界模型，以及像ChatGPT理解语言那样精通物理规律的机器人。