Hasty Briefsbeta

双语

Distillation Scaling Laws

9 months ago
  • #model distillation
  • #scaling laws
  • #machine learning
  • 提出蒸馏缩放定律,通过计算预算及师生模型间资源分配来预估蒸馏模型性能
  • 通过计算最优分配方案最大化学生模型表现,从而降低大规模蒸馏风险
  • 为两种场景提供计算最优蒸馏方案:已有教师模型/需从头训练教师模型
  • 实证表明:在多学生场景或存在预训练教师时,蒸馏效果优于监督学习(在可预测计算量范围内)
  • 指出若仅需蒸馏单个学生且需训练教师模型时,监督学习更具优势
  • 通过大规模研究深化对蒸馏机制的理解,为实验设计提供指导