Hasty Briefsbeta

双语

Generalized on-policy distillation with reward extrapolation

3 months ago

#reinforcement learning
#knowledge distillation
#machine learning

在线策略蒸馏(OPD)通过使学生在自身生成轨迹上的logit分布与教师模型对齐来提升学生模型性能
理论分析表明OPD是密集KL约束强化学习的特例，其奖励函数与KL正则项的权重相等
广义在线策略蒸馏(G-OPD)通过引入灵活的参考模型和奖励缩放因子扩展了OPD框架
奖励外推法(ExOPD)将奖励缩放因子设为>1时，在不同规模的师生模型配对中均优于标准OPD
当融合领域专家知识时，ExOPD能使学生模型突破教师模型的性能边界
在强教师-弱学生蒸馏场景中，使用教师基础模型作为参考进行奖励修正可提升性能，但需要获取强化学习训练前的教师变体
在数学推理和代码生成任务上的全面实验验证了G-OPD和ExOPD方法的有效性