Defeating Nondeterminism in LLM Inference
8 months ago
- #inference
- #LLM
- #determinism
- LLM推理由于浮点数非结合性和批次大小变化而具有不确定性。
- 浮点数非结合性导致运算顺序不同时产生数值差异。
- 推理服务器中批次大小的变化会导致非确定性结果,因为计算内核不具备批次不变性。
- 实现确定性LLM推理需要RMSNorm、矩阵乘法和注意力等操作具备批次不变性的计算内核。
- 批次不变的注意力机制要求无论token如何处理,归约顺序必须保持一致。
- 确定性推理通过确保训练与采样结果完全一致,实现了真正的同策略强化学习。
- 确定性计算内核的性能影响可控,注意力内核可通过优化进一步提升效率。
- 呼吁社区共同解决机器学习系统中的不确定性问题,以提升结果可复现性和系统可靠性。