Quantization from the Ground Up
2 months ago
- #LLM
- #efficiency
- #quantization
- Qwen-3-Coder-Next是一个拥有800亿参数的大模型,运行时需要159.4GB内存。
- 前沿大模型的参数量可能超过1万亿,至少需要2TB内存才能运行。
- 量化技术可将大语言模型体积压缩4倍,速度提升2倍,而精度损失仅为5-10%左右。
- 参数(权重)是大语言模型的核心,以数十亿个图结构运算节点的形式存在。
- 大语言模型通过多层参数化节点构建,现代模型的参数量可达数十亿甚至万亿级别。
- 计算机中的浮点数通过符号位、指数位和尾数位的设计,在精度和范围间取得平衡。
- 大多数大模型参数值集中在零附近,这种分布特性特别适合浮点数高效表示。
- 量化技术通过对称/非对称缩放等方法,将大范围数值映射到较小取值区间。
- 分块量化(每次处理32-256个参数)能有效降低异常值对模型质量的影响。
- 量化模型的质量评估指标包括困惑度、KL散度、基准测试分数和对话测试等。
- 8比特和4比特量化模型质量损失很小,但2比特量化通常会导致模型失效。
- 更小的量化位宽(如4比特)因减少GPU数据搬运量,反而可能获得加速效果。
- 训练后量化(PTQ)与量化感知训练(QAT)不同,后者通常能获得更好的量化效果。
- AWQ和GPTQ等替代量化方案提供了不同的精度-效率权衡选择。
- 除量化外,参数剪枝和知识蒸馏也能有效提升模型效率。