AMD 2.0 – New Sense of Urgency
a year ago
- #GPU Competition
- #Software Development
- #AI Hardware
- AMD在过去四个月里在AI软件栈方面取得快速进展,采用'开发者优先'策略并改进CI/CD集成
- AMD对AI软件工程师的薪酬显著低于英伟达等竞争对手,导致人才留存面临挑战
- 与英伟达CUDA相比,ROCm缺乏一流的Python支持,影响开发者体验和性能优化
- AMD的RCCL与英伟达NCCL的差距正在扩大,NCCL已引入GPUDirect异步传输和用户缓冲注册等高级功能
- AMD内部开发集群不足以支撑长期竞争力,短期爆发模式阻碍创新
- AMD的MI325X和MI355X客户兴趣低迷,尤其对比英伟达GB200 NVL72等机架级解决方案
- AMD计划6月推出社区开发者云,试图复制谷歌TPU研究云的成功模式
- 英伟达CUDA凭借庞大的外部开发者生态蓬勃发展,而AMD在缺陷修复和功能采纳方面进展缓慢
- AMD的软件基础设施(Kubernetes/SLURM/Docker)落后于其机器学习库,需要更多投入
- AMD缺乏对分拆式预填充和NVMe键值缓存分层等关键推理功能的支持,落后于英伟达Dynamo框架