Hasty Briefsbeta

双语

Distillation Scaling Laws

9 months ago

#model distillation
#scaling laws
#machine learning

提出蒸馏缩放定律，通过计算预算及师生模型间资源分配来预估蒸馏模型性能
通过计算最优分配方案最大化学生模型表现，从而降低大规模蒸馏风险
为两种场景提供计算最优蒸馏方案：已有教师模型/需从头训练教师模型
实证表明：在多学生场景或存在预训练教师时，蒸馏效果优于监督学习（在可预测计算量范围内）
指出若仅需蒸馏单个学生且需训练教师模型时，监督学习更具优势
通过大规模研究深化对蒸馏机制的理解，为实验设计提供指导