Generalized on-policy distillation with reward extrapolation
3 months ago
- #reinforcement learning
- #knowledge distillation
- #machine learning
- 在线策略蒸馏(OPD)通过使学生在自身生成轨迹上的logit分布与教师模型对齐来提升学生模型性能
- 理论分析表明OPD是密集KL约束强化学习的特例,其奖励函数与KL正则项的权重相等
- 广义在线策略蒸馏(G-OPD)通过引入灵活的参考模型和奖励缩放因子扩展了OPD框架
- 奖励外推法(ExOPD)将奖励缩放因子设为>1时,在不同规模的师生模型配对中均优于标准OPD
- 当融合领域专家知识时,ExOPD能使学生模型突破教师模型的性能边界
- 在强教师-弱学生蒸馏场景中,使用教师基础模型作为参考进行奖励修正可提升性能,但需要获取强化学习训练前的教师变体
- 在数学推理和代码生成任务上的全面实验验证了G-OPD和ExOPD方法的有效性