Hasty Briefsbeta

双语

Model-Preserving Adaptive Rounding

a year ago

#LLMs
#Machine Learning
#Quantization

介绍YAQA——一种用于大语言模型(LLM)训练后量化(PTQ)的自适应舍入算法
利用各线性层Hessian矩阵关于完整模型KL散度的Kronecker分解近似
YAQA包含两个组件：全层Hessian矩阵的Kronecker分解草图，以及独立于量化器的舍入算法
实证研究表明，该方法将KL散度降低约30%，同时在下游任务中达到最先进性能
适用于千亿参数规模的大语言模型，兼容多种模型架构和量化器类型