Show HN: Deterministic PCIe Diagnostics for GPUs on Linux
2 months ago
- #GPU
- #PCIe
- #diagnostics
- 一款确定性命令行工具,仅通过可观测的硬件数据验证GPU PCIe链路健康状况、带宽及实际PCIe利用率。
- 该工具可测量PCIe当前及最大链路代数和宽度、峰值复制带宽、负载下的持续PCIe利用率,以及与理论PCIe有效载荷带宽的相对效率。
- 根据可观测条件提供明确结论:正常(OK)、降级(DEGRADED)或性能不足(UNDERPERFORMING)。
- 诊断常见PCIe问题,如链路协商故障、代数降级及带宽缩减。
- 需搭配NVIDIA GPU(支持对应驱动)、CUDA工具包、NVML开发库及Linux操作系统使用。
- 支持CSV和JSON格式日志记录,便于时间序列分析与自动化监控。
- 包含多GPU模式,可独立评估每个GPU。
- 不修改BIOS、固件、注册表或PCIe配置,仅报告可观测事实。
- 基于MIT许可证开源,作者Joe McLaren。