Hasty Briefsbeta

双语

Basic Facts about GPUs

a year ago

#GPU Architecture
#Roofline Model
#Performance Optimization

GPU的计算速度与内存带宽存在显著不平衡，例如NVIDIA A100的算力达19.5 TFLOPS但内存带宽仅1.5 TB/s
GPU内存层级包括全局内存（显存）、共享内存（SRAM）和寄存器，各自具有不同的速度与用途
线程被组织为线程束（32线程）和线程块，运行在流式多处理器（SM）上
内核性能受限于内存带宽或计算吞吐量，分别对应内存瓶颈型与计算瓶颈型操作
算术强度（AI）是浮点运算次数与内存访问字节数的比值，决定内核属于内存瓶颈还是计算瓶颈
屋顶模型可视化性能极限，其转折点（如A100约13 FLOPs/Byte）划分内存瓶颈与计算瓶颈区域
优化策略包括算子融合减少内存流量，以及通过共享内存提升数据复用率
矩阵乘法可通过分块加载到共享内存，并采用协作线程策略来提高算术强度
内存访问模式需保持合并访问高效性，共享内存需避免存储体冲突
线程分支分化与占用率是影响性能的关键因素，高占用率有助于隐藏延迟
量化技术可通过降低内存占用和启用低精度运算来提升性能