Hasty Briefsbeta

双语

Defeating Nondeterminism in LLM Inference

8 months ago
  • #inference
  • #LLM
  • #determinism
  • LLM推理由于浮点数非结合性和批次大小变化而具有不确定性。
  • 浮点数非结合性导致运算顺序不同时产生数值差异。
  • 推理服务器中批次大小的变化会导致非确定性结果,因为计算内核不具备批次不变性。
  • 实现确定性LLM推理需要RMSNorm、矩阵乘法和注意力等操作具备批次不变性的计算内核。
  • 批次不变的注意力机制要求无论token如何处理,归约顺序必须保持一致。
  • 确定性推理通过确保训练与采样结果完全一致,实现了真正的同策略强化学习。
  • 确定性计算内核的性能影响可控,注意力内核可通过优化进一步提升效率。
  • 呼吁社区共同解决机器学习系统中的不确定性问题,以提升结果可复现性和系统可靠性。