Hasty Briefsbeta

双语

Llama.cpp: Deterministic Inference Mode (CUDA): RMSNorm, MatMul, Attention

8 months ago
  • #CUDA
  • #deterministic-inference
  • #machine-learning
  • 为CUDA推理添加可选的确定性模式,确保相同输入获得完全一致的比特级结果
  • 包含RMSNorm、密集矩阵乘法(MatMul)和注意力机制的确定性实现,采用批次不变内核
  • 使用稳定的填充式KV缓存布局以保持一致性
  • 可通过CMake选项GGML_DETERMINISTIC、环境变量或CLI标志--deterministic启用
  • 新增测试验证所有组件的批次不变性和跨运行确定性
  • 摘要中提及性能影响但未具体量化
  • 范围涵盖多种数据类型(F32/F16/BF16)和矩阵尺寸的处理
  • 文档更新包含DETERMINISM.md文件,详述矩阵乘法和注意力机制的实现细节
  • 已在NVIDIA GPU上测试,包括A4000 x2和RTX 2000E Ada显卡