Hasty Briefsbeta

双语

Model-Preserving Adaptive Rounding

a year ago
  • #LLMs
  • #Machine Learning
  • #Quantization
  • 介绍YAQA——一种用于大语言模型(LLM)训练后量化(PTQ)的自适应舍入算法
  • 利用各线性层Hessian矩阵关于完整模型KL散度的Kronecker分解近似
  • YAQA包含两个组件:全层Hessian矩阵的Kronecker分解草图,以及独立于量化器的舍入算法
  • 实证研究表明,该方法将KL散度降低约30%,同时在下游任务中达到最先进性能
  • 适用于千亿参数规模的大语言模型,兼容多种模型架构和量化器类型