ButterflyQuant: Ultra-low-bit LLM Quantization
8 months ago
- #large language models
- #machine learning
- #quantization
- ButterflyQuant提出可学习的正交蝶形变换,用于超低位宽LLM量化
- 解决2比特量化中因激活值异常点导致的性能崩溃问题
- 用连续可学习的蝶形变换替代固定哈达玛变换,实现层自适应旋转
- 通过结构设计保证正交性,为异常点抑制提供理论保证
- 仅需(n log n)/2个可学习参数即可实现O(n log n)计算复杂度
- 引入均匀性正则化促进更平滑的激活分布以优化量化效果
- 仅需128样本的最小校准量,在单GPU上快速收敛
- 在LLaMA-2-7B上实现15.4的困惑度,显著优于QuaRot的22.1