How to Think About GPUs
9 months ago
- #GPU
- #LLM
- #TPU
- GPU与TPU在架构和性能上针对大语言模型(LLM)进行了对比分析
- 现代机器学习GPU如H100和B200由计算核心(SMs)和高速显存(HBM)组成
- H100的每个流式多处理器(SM)划分为4个象限,包含张量核心、CUDA核心和线程束调度器
- CUDA核心负责SIMD/SIMT向量运算,而张量核心专精矩阵乘法运算
- GPU采用分层存储架构:HBM显存、L2缓存、L1/共享内存、纹理内存和寄存器内存
- 对比了历代GPU型号(V100/A100/H100/H200/B200)的主频、SM数量和显存容量等参数
- 将GPU组件(SM/线程束调度器)与TPU组件(张量核心/VPU)进行对应映射比较
- GPU采用模块化设计(大量小型SM),TPU则配备少量大型张量核心
- TPU具有更高速的缓存内存(VMEM),这对LLM推理任务更有利
- 网络架构差异:GPU采用树状层级交换,TPU使用2D/3D环形拓扑
- GPU节点(如8卡配置)通过NVLink实现高带宽低延迟互联
- 分析了GPU上的集合通信操作(全局收集/规约分散/全局规约/全交换)
- 探讨了GPU上LLM扩展的性能上限,涵盖数据/张量/流水线/专家并行策略
- 总结了GPU上大模型分片部署的实践要点
- Blackwell架构GPU引入第五代NVLink技术,支持更大规模互联域(如NVL72的72卡互联)
- Grace Hopper超算平台通过Grace CPU与GPU协同设计实现超高CPU-GPU带宽