NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models
3 months ago
- #Model Compression
- #Machine Learning
- #Quantization
- NanoQuant是一种创新的训练后量化(PTQ)方法,可将大语言模型(LLM)压缩至二值化和亚1比特级别。
- 该方法将量化问题建模为低秩二值分解问题,将权重压缩为低秩二值矩阵和缩放因子。
- 采用高效的ADMM方法精确初始化二值矩阵和缩放因子,随后通过分块重建和模型重建进行微调。
- 在亚1比特压缩率下实现最先进的精度,使大模型能在消费级硬件上部署。
- 在单块H100显卡上13小时内完成Llama2-70B模型的25.8倍压缩,使700亿参数模型可在8GB显存的GPU上运行。