Hasty Briefsbeta

双语

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

3 months ago
  • #Model Compression
  • #Machine Learning
  • #Quantization
  • NanoQuant是一种创新的训练后量化(PTQ)方法,可将大语言模型(LLM)压缩至二值化和亚1比特级别。
  • 该方法将量化问题建模为低秩二值分解问题,将权重压缩为低秩二值矩阵和缩放因子。
  • 采用高效的ADMM方法精确初始化二值矩阵和缩放因子,随后通过分块重建和模型重建进行微调。
  • 在亚1比特压缩率下实现最先进的精度,使大模型能在消费级硬件上部署。
  • 在单块H100显卡上13小时内完成Llama2-70B模型的25.8倍压缩,使700亿参数模型可在8GB显存的GPU上运行。