Llama.cpp: Deterministic Inference Mode (CUDA): RMSNorm, MatMul, Attention
8 months ago
- #CUDA
- #deterministic-inference
- #machine-learning
- 为CUDA推理添加可选的确定性模式,确保相同输入获得完全一致的比特级结果
- 包含RMSNorm、密集矩阵乘法(MatMul)和注意力机制的确定性实现,采用批次不变内核
- 使用稳定的填充式KV缓存布局以保持一致性
- 可通过CMake选项GGML_DETERMINISTIC、环境变量或CLI标志--deterministic启用
- 新增测试验证所有组件的批次不变性和跨运行确定性
- 摘要中提及性能影响但未具体量化
- 范围涵盖多种数据类型(F32/F16/BF16)和矩阵尺寸的处理
- 文档更新包含DETERMINISM.md文件,详述矩阵乘法和注意力机制的实现细节
- 已在NVIDIA GPU上测试,包括A4000 x2和RTX 2000E Ada显卡