Hasty Briefsbeta

双语

Quantization from the Ground Up

2 months ago

#LLM
#efficiency
#quantization

Qwen-3-Coder-Next是一个拥有800亿参数的大模型，运行时需要159.4GB内存。
前沿大模型的参数量可能超过1万亿，至少需要2TB内存才能运行。
量化技术可将大语言模型体积压缩4倍，速度提升2倍，而精度损失仅为5-10%左右。
参数（权重）是大语言模型的核心，以数十亿个图结构运算节点的形式存在。
大语言模型通过多层参数化节点构建，现代模型的参数量可达数十亿甚至万亿级别。
计算机中的浮点数通过符号位、指数位和尾数位的设计，在精度和范围间取得平衡。
大多数大模型参数值集中在零附近，这种分布特性特别适合浮点数高效表示。
量化技术通过对称/非对称缩放等方法，将大范围数值映射到较小取值区间。
分块量化（每次处理32-256个参数）能有效降低异常值对模型质量的影响。
量化模型的质量评估指标包括困惑度、KL散度、基准测试分数和对话测试等。
8比特和4比特量化模型质量损失很小，但2比特量化通常会导致模型失效。
更小的量化位宽（如4比特）因减少GPU数据搬运量，反而可能获得加速效果。
训练后量化(PTQ)与量化感知训练(QAT)不同，后者通常能获得更好的量化效果。
AWQ和GPTQ等替代量化方案提供了不同的精度-效率权衡选择。
除量化外，参数剪枝和知识蒸馏也能有效提升模型效率。