Hasty Briefsbeta

双语

Defeating Nondeterminism in LLM Inference

8 months ago

#inference
#LLM
#determinism

LLM推理由于浮点数非结合性和批次大小变化而具有不确定性。
浮点数非结合性导致运算顺序不同时产生数值差异。
推理服务器中批次大小的变化会导致非确定性结果，因为计算内核不具备批次不变性。
实现确定性LLM推理需要RMSNorm、矩阵乘法和注意力等操作具备批次不变性的计算内核。
批次不变的注意力机制要求无论token如何处理，归约顺序必须保持一致。
确定性推理通过确保训练与采样结果完全一致，实现了真正的同策略强化学习。
确定性计算内核的性能影响可控，注意力内核可通过优化进一步提升效率。
呼吁社区共同解决机器学习系统中的不确定性问题，以提升结果可复现性和系统可靠性。