Hasty Briefsbeta

双语

Real-time action chunking with large models

a year ago

#VLAs
#real-time AI
#robotics

机器人必须实时运行，这与聊天机器人或图像生成器不同，因为输入与输出之间的延迟会影响性能。
视觉-语言-动作模型（VLA）虽前景广阔，但因模型庞大且依赖高性能GPU导致运行缓慢。
动作分块（每次推理调用执行多个动作）能缓解问题，但可能导致分块间动作不连贯。
初始模型（π0、π0-FAST、π0.5）采用同步执行机制，分块间的停顿会降低系统表现。
实时分块技术（RTC）被开发用于实现无缝实时执行，消除动作断层。
RTC将分块过渡视为图像修复问题，通过重叠动作确保连贯性。
扩散模型和流模型天生擅长修复任务，使RTC无需调整训练即可生效。
实验表明RTC能提升速度与精度，即使面对300毫秒的高延迟仍表现稳健。
在人为增加延迟的测试中，RTC保持稳定性能，而同步方法显著退化。
随着模型规模扩大，未来机器人系统需具备多层级实时推理能力以处理复杂任务。