Real-time action chunking with large models
a year ago
- #VLAs
- #real-time AI
- #robotics
- 机器人必须实时运行,这与聊天机器人或图像生成器不同,因为输入与输出之间的延迟会影响性能。
- 视觉-语言-动作模型(VLA)虽前景广阔,但因模型庞大且依赖高性能GPU导致运行缓慢。
- 动作分块(每次推理调用执行多个动作)能缓解问题,但可能导致分块间动作不连贯。
- 初始模型(π0、π0-FAST、π0.5)采用同步执行机制,分块间的停顿会降低系统表现。
- 实时分块技术(RTC)被开发用于实现无缝实时执行,消除动作断层。
- RTC将分块过渡视为图像修复问题,通过重叠动作确保连贯性。
- 扩散模型和流模型天生擅长修复任务,使RTC无需调整训练即可生效。
- 实验表明RTC能提升速度与精度,即使面对300毫秒的高延迟仍表现稳健。
- 在人为增加延迟的测试中,RTC保持稳定性能,而同步方法显著退化。
- 随着模型规模扩大,未来机器人系统需具备多层级实时推理能力以处理复杂任务。