Hasty Briefsbeta

双语

Nvidia trains 10T model in 4 bit precision (NVFP4)

9 months ago

#AI
#NVIDIA
#Quantization

AI工作负载呈指数级增长，特别是在部署大语言模型（LLMs）以及预训练和训练后阶段的token处理过程中
英伟达NVFP4作为4比特精度格式，在保持准确性的同时显著提升了推理延迟、吞吐量和能效
NVFP4现已扩展至预训练领域，为训练效率和可扩展性带来重大突破
4比特量化技术将模型权重和激活值压缩至4比特，这需要特殊技术来维持模型精度
NVFP4预训练方案采用微块缩放、高精度块编码、张量重塑和随机舍入等技术确保训练稳定性与准确性
实验表明NVFP4在大规模预训练中性能媲美FP8，验证了其在万亿token模型上的有效性
NVFP4助力AI工厂实现高效扩展，在降低功耗与计算成本的同时加速模型开发进程