Waypoint-1: Real-Time Interactive Video Diffusion from Overworld
4 months ago
- #VideoDiffusion
- #AI
- #RealTime
- Waypoint-1是Overworld的实时交互式视频扩散模型,可通过文本、鼠标和键盘进行控制。
- 该模型允许用户通过基于输入的帧生成来创建交互式世界。
- 模型训练使用了10,000小时的带有控制输入和文本描述的游戏录像。
- 与其他模型不同,Waypoint-1提供零延迟控制输入,支持自由摄像机移动和键盘操作。
- 训练采用了扩散强制和自强制技术,以优化逐帧生成效果。
- WorldEngine是Overworld专为低延迟和交互性优化的高性能推理库。
- Waypoint-1-Small(2.3B参数)在5090显卡上实现4步30帧/秒或2步60帧/秒的性能。
- 性能优化包括AdaLN特征缓存、静态滚动KV缓存、矩阵乘法融合及Torch Compile加速。
- World Engine黑客马拉松定于2026年1月20日举行,奖品为5090显卡。