Hasty Briefsbeta

双语

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

3 months ago

#Model Compression
#Machine Learning
#Quantization

NanoQuant是一种创新的训练后量化(PTQ)方法，可将大语言模型(LLM)压缩至二值化和亚1比特级别。
该方法将量化问题建模为低秩二值分解问题，将权重压缩为低秩二值矩阵和缩放因子。
采用高效的ADMM方法精确初始化二值矩阵和缩放因子，随后通过分块重建和模型重建进行微调。
在亚1比特压缩率下实现最先进的精度，使大模型能在消费级硬件上部署。
在单块H100显卡上13小时内完成Llama2-70B模型的25.8倍压缩，使700亿参数模型可在8GB显存的GPU上运行。