Hasty Briefsbeta

双语

Real-time action chunking with large models

a year ago
  • #VLAs
  • #real-time AI
  • #robotics
  • 机器人必须实时运行,这与聊天机器人或图像生成器不同,因为输入与输出之间的延迟会影响性能。
  • 视觉-语言-动作模型(VLA)虽前景广阔,但因模型庞大且依赖高性能GPU导致运行缓慢。
  • 动作分块(每次推理调用执行多个动作)能缓解问题,但可能导致分块间动作不连贯。
  • 初始模型(π0、π0-FAST、π0.5)采用同步执行机制,分块间的停顿会降低系统表现。
  • 实时分块技术(RTC)被开发用于实现无缝实时执行,消除动作断层。
  • RTC将分块过渡视为图像修复问题,通过重叠动作确保连贯性。
  • 扩散模型和流模型天生擅长修复任务,使RTC无需调整训练即可生效。
  • 实验表明RTC能提升速度与精度,即使面对300毫秒的高延迟仍表现稳健。
  • 在人为增加延迟的测试中,RTC保持稳定性能,而同步方法显著退化。
  • 随着模型规模扩大,未来机器人系统需具备多层级实时推理能力以处理复杂任务。