Hasty Briefsbeta

双语

Virtualizing Nvidia HGX B200 GPUs with Open Source

5 months ago
  • #Open-Source
  • #GPU Virtualization
  • #NVIDIA B200
  • NVIDIA B200 HGX机器上启用了GPU虚拟机,这类机器比H100更难虚拟化。
  • B200 HGX采用SXM模块和NVLink实现高带宽GPU间互联,这增加了虚拟化难度。
  • 提供三种虚拟化模式:全透传模式、vGPU模式、共享NVSwitch多租户模式。
  • 共享NVSwitch多租户模式支持1/2/4/8-GPU虚拟机,且保持完整NVLink带宽。
  • 主机准备需将GPU绑定到vfio-pci驱动并配置IOMMU支持。
  • 共享NVSwitch多租户模式下,主机与虚拟机的驱动版本必须严格匹配。
  • PCI拓扑不匹配会导致CUDA初始化失败,可通过QEMU重建正确层级解决。
  • 虚拟机启动时的大内存映射(BAR)卡顿可通过升级QEMU或禁用BAR mmap解决。
  • Fabric Manager在共享NVSwitch模式下控制GPU分区并强制隔离。
  • Ubicloud已开源实现方案,包含GPU分配和虚拟机启动组件。