Hasty Briefsbeta

双语

ButterflyQuant: Ultra-low-bit LLM Quantization

8 months ago

#large language models
#machine learning
#quantization

ButterflyQuant提出可学习的正交蝶形变换，用于超低位宽LLM量化
解决2比特量化中因激活值异常点导致的性能崩溃问题
用连续可学习的蝶形变换替代固定哈达玛变换，实现层自适应旋转
通过结构设计保证正交性，为异常点抑制提供理论保证
仅需(n log n)/2个可学习参数即可实现O(n log n)计算复杂度
引入均匀性正则化促进更平滑的激活分布以优化量化效果
仅需128样本的最小校准量，在单GPU上快速收敛
在LLaMA-2-7B上实现15.4的困惑度，显著优于QuaRot的22.1