Hasty Briefsbeta

双语

On-Policy Distillation

7 months ago
  • #reinforcement-learning
  • #machine-learning
  • #distillation
  • 大语言模型通过预训练、中期训练和后训练阶段的组合实现专家级性能表现
  • 经过专门训练的小型模型在特定领域可以超越通用型大型模型
  • 在线策略训练通过从学生模型采样并分配奖励,而离线策略训练依赖外部目标输出
  • 在线策略蒸馏结合了强化学习的相关性和蒸馏的密集奖励信号,对学生轨迹的每个标记进行评分
  • 研究表明在线策略蒸馏比强化学习更具计算效率,能以更少步骤实现相似性能
  • 蒸馏能有效复用训练数据,允许对相同提示进行多轮训练而不会过拟合
  • 在线策略蒸馏适用于持续学习,使模型能获取新知识而不损害已有能力
  • 该方法被成功应用于数学推理和个性化助手训练等任务,展现了其多功能性