Hasty Briefsbeta

双语

Waypoint-1: Real-Time Interactive Video Diffusion from Overworld

4 months ago
  • #VideoDiffusion
  • #AI
  • #RealTime
  • Waypoint-1是Overworld的实时交互式视频扩散模型,可通过文本、鼠标和键盘进行控制。
  • 该模型允许用户通过基于输入的帧生成来创建交互式世界。
  • 模型训练使用了10,000小时的带有控制输入和文本描述的游戏录像。
  • 与其他模型不同,Waypoint-1提供零延迟控制输入,支持自由摄像机移动和键盘操作。
  • 训练采用了扩散强制和自强制技术,以优化逐帧生成效果。
  • WorldEngine是Overworld专为低延迟和交互性优化的高性能推理库。
  • Waypoint-1-Small(2.3B参数)在5090显卡上实现4步30帧/秒或2步60帧/秒的性能。
  • 性能优化包括AdaLN特征缓存、静态滚动KV缓存、矩阵乘法融合及Torch Compile加速。
  • World Engine黑客马拉松定于2026年1月20日举行,奖品为5090显卡。