Supervised Fine Tuning on Curated Data Is Reinforcement Learning
10 months ago
- #Machine Learning
- #Supervised Fine-Tuning
- #Reinforcement Learning
- 行为克隆(BC)在精选数据上是大型语言模型监督微调(SFT)和模仿学习的主要方法。
- SFT可视为在稀疏奖励设置中对强化学习(RL)目标函数下界的最大化。
- 改进版SFT(称为重要性加权监督微调iw-SFT)通过优化更紧致的RL目标边界来提升性能。
- iw-SFT易于实现,并可推广至带质量评分数据的训练场景。
- 这些SFT变体在大型语言模型和连续控制任务中与先进RL算法表现相当,在AIME 2024数据集上达到66.7%的准确率。