On-Policy Distillation
7 months ago
- #reinforcement-learning
- #machine-learning
- #distillation
- 大语言模型通过预训练、中期训练和后训练阶段的组合实现专家级性能表现
- 经过专门训练的小型模型在特定领域可以超越通用型大型模型
- 在线策略训练通过从学生模型采样并分配奖励,而离线策略训练依赖外部目标输出
- 在线策略蒸馏结合了强化学习的相关性和蒸馏的密集奖励信号,对学生轨迹的每个标记进行评分
- 研究表明在线策略蒸馏比强化学习更具计算效率,能以更少步骤实现相似性能
- 蒸馏能有效复用训练数据,允许对相同提示进行多轮训练而不会过拟合
- 在线策略蒸馏适用于持续学习,使模型能获取新知识而不损害已有能力
- 该方法被成功应用于数学推理和个性化助手训练等任务,展现了其多功能性