Hasty Briefsbeta

双语

Show HN: Deterministic PCIe Diagnostics for GPUs on Linux

2 months ago
  • #GPU
  • #PCIe
  • #diagnostics
  • 一款确定性命令行工具,仅通过可观测的硬件数据验证GPU PCIe链路健康状况、带宽及实际PCIe利用率。
  • 该工具可测量PCIe当前及最大链路代数和宽度、峰值复制带宽、负载下的持续PCIe利用率,以及与理论PCIe有效载荷带宽的相对效率。
  • 根据可观测条件提供明确结论:正常(OK)、降级(DEGRADED)或性能不足(UNDERPERFORMING)。
  • 诊断常见PCIe问题,如链路协商故障、代数降级及带宽缩减。
  • 需搭配NVIDIA GPU(支持对应驱动)、CUDA工具包、NVML开发库及Linux操作系统使用。
  • 支持CSV和JSON格式日志记录,便于时间序列分析与自动化监控。
  • 包含多GPU模式,可独立评估每个GPU。
  • 不修改BIOS、固件、注册表或PCIe配置,仅报告可观测事实。
  • 基于MIT许可证开源,作者Joe McLaren。