Hasty Briefsbeta

双语

15 years of FP64 segmentation, and why the Blackwell Ultra breaks the pattern

9 days ago
  • #FP64
  • #AI
  • #GPU
  • RTX 5090提供104.8 TFLOPS的FP32算力,但FP64仅1.64 TFLOPS,性能差距达64:1
  • 英伟达逐步扩大消费级GPU的FP64:FP32比率——从2010年费米架构的1:8扩大到2020年安培架构的1:64,而企业级GPU始终维持1:2或1:3的比率
  • 2010至2025年间,消费级GPU的FP64性能仅提升9.65倍,而FP32性能提升达77.63倍
  • 市场细分是限制消费级GPU FP64性能的主因,因为多数消费级应用无需双精度计算
  • 企业级GPU凭借强劲FP64性能、ECC内存、NVLink和支持服务维持高价
  • AI训练更依赖低精度(FP16/BF16/FP8/FP4),使消费级GPU也能胜任计算任务,促使英伟达2017年通过用户协议限制数据中心使用
  • Dekker双浮点算法和尾崎方案等FP64模拟技术,允许消费级GPU通过FP32或低精度张量核心执行高精度计算
  • 英伟达最新企业级GPU(B300)为顺应AI需求,降低FP64性能并增强低精度张量核心
  • 下一代市场细分可能从FP64转向低精度浮点比率(如FP16:FP32)