Hasty Briefsbeta

双语

Pushing the Limits of LLM Quantization via the Linearity Theorem

a year ago

#Machine Learning
#Quantization
#Large Language Models

提出'线性定理'将逐层ℓ₂重构误差与量化导致的模型困惑度上升相关联
推出HIGGS——基于Hadamard变换和MSE最优网格的无数据量化方法，性能超越NF4等先前无数据方案
通过动态规划给出非均匀分层量化级别的最优解，完美匹配压缩约束条件
在Llama-3.1/3.2系列和Qwen系列模型上实现更优的精度-压缩率权衡
展示支持多种批尺寸的高效GPU内核，推动LLM无数据非均匀量化技术发展