Virtualizing Nvidia HGX B200 GPUs with Open Source
5 months ago
- #Open-Source
- #GPU Virtualization
- #NVIDIA B200
- NVIDIA B200 HGX机器上启用了GPU虚拟机,这类机器比H100更难虚拟化。
- B200 HGX采用SXM模块和NVLink实现高带宽GPU间互联,这增加了虚拟化难度。
- 提供三种虚拟化模式:全透传模式、vGPU模式、共享NVSwitch多租户模式。
- 共享NVSwitch多租户模式支持1/2/4/8-GPU虚拟机,且保持完整NVLink带宽。
- 主机准备需将GPU绑定到vfio-pci驱动并配置IOMMU支持。
- 共享NVSwitch多租户模式下,主机与虚拟机的驱动版本必须严格匹配。
- PCI拓扑不匹配会导致CUDA初始化失败,可通过QEMU重建正确层级解决。
- 虚拟机启动时的大内存映射(BAR)卡顿可通过升级QEMU或禁用BAR mmap解决。
- Fabric Manager在共享NVSwitch模式下控制GPU分区并强制隔离。
- Ubicloud已开源实现方案,包含GPU分配和虚拟机启动组件。