15 years of FP64 segmentation, and why the Blackwell Ultra breaks the pattern

3 months ago

RTX 5090提供104.8 TFLOPS的FP32算力，但FP64仅1.64 TFLOPS，性能差距达64:1
英伟达逐步扩大消费级GPU的FP64:FP32比率——从2010年费米架构的1:8扩大到2020年安培架构的1:64，而企业级GPU始终维持1:2或1:3的比率
2010至2025年间，消费级GPU的FP64性能仅提升9.65倍，而FP32性能提升达77.63倍
市场细分是限制消费级GPU FP64性能的主因，因为多数消费级应用无需双精度计算
企业级GPU凭借强劲FP64性能、ECC内存、NVLink和支持服务维持高价
AI训练更依赖低精度（FP16/BF16/FP8/FP4），使消费级GPU也能胜任计算任务，促使英伟达2017年通过用户协议限制数据中心使用
Dekker双浮点算法和尾崎方案等FP64模拟技术，允许消费级GPU通过FP32或低精度张量核心执行高精度计算
英伟达最新企业级GPU（B300）为顺应AI需求，降低FP64性能并增强低精度张量核心
下一代市场细分可能从FP64转向低精度浮点比率（如FP16:FP32）

Hasty Briefsbeta