Hasty Briefsbeta

双语

AMD's CDNA 4 Architecture Announcement – By Chester Lam

a year ago
  • #AMD-CDNA4
  • #machine-learning
  • #GPU-architecture
  • CDNA 4是AMD最新面向计算优化的GPU架构,重点提升机器学习工作负载中的矩阵乘法性能。
  • CDNA 4在保持AMD矢量运算优势的同时改进低精度矩阵吞吐,部分场景下每计算单元矩阵性能翻倍。
  • 该架构采用类似CDNA 3的小芯片设计,四个基础芯片上搭载八个XCD加速计算芯片,通过Infinity Fabric实现一致性内存访问。
  • 相比英伟达B200,AMD MI355X(CDNA 4)拥有更多计算单元但单单元性能略低,依靠更高时钟频率弥补差距。
  • CDNA 4将LDS(本地数据共享)容量提升至160KB并实现读取带宽翻倍,优化线程本地数据存储效率。
  • 新增支持转置读取等LDS指令,通过更有效处理低效内存访问模式来优化矩阵乘法运算。
  • MI355X升级至HBM3E显存,带宽(8TB/s)和容量(288GB)均优于英伟达B200(7.7TB/s,180GB)。
  • AMD在矢量吞吐和高精度计算保持显著优势,而英伟达在低精度矩阵运算领域领先。
  • CDNA 4属于迭代式改进,类似Zen3到Zen4的演进路线,主要优化而非重构CDNA 3设计。
  • AMD策略呼应英伟达对成功架构的持续打磨,CDNA 4基于MI300X在超算领域的成就进一步升级。