Hasty Briefsbeta

双语

On-Policy Distillation

7 months ago

#reinforcement-learning
#machine-learning
#distillation

大语言模型通过预训练、中期训练和后训练阶段的组合实现专家级性能表现
经过专门训练的小型模型在特定领域可以超越通用型大型模型
在线策略训练通过从学生模型采样并分配奖励，而离线策略训练依赖外部目标输出
在线策略蒸馏结合了强化学习的相关性和蒸馏的密集奖励信号，对学生轨迹的每个标记进行评分
研究表明在线策略蒸馏比强化学习更具计算效率，能以更少步骤实现相似性能
蒸馏能有效复用训练数据，允许对相同提示进行多轮训练而不会过拟合
在线策略蒸馏适用于持续学习，使模型能获取新知识而不损害已有能力
该方法被成功应用于数学推理和个性化助手训练等任务，展现了其多功能性