Pushing the Limits of LLM Quantization via the Linearity Theorem
a year ago
- #Machine Learning
- #Quantization
- #Large Language Models
- 提出'线性定理'将逐层ℓ₂重构误差与量化导致的模型困惑度上升相关联
- 推出HIGGS——基于Hadamard变换和MSE最优网格的无数据量化方法,性能超越NF4等先前无数据方案
- 通过动态规划给出非均匀分层量化级别的最优解,完美匹配压缩约束条件
- 在Llama-3.1/3.2系列和Qwen系列模型上实现更优的精度-压缩率权衡
- 展示支持多种批尺寸的高效GPU内核,推动LLM无数据非均匀量化技术发展