Hasty Briefsbeta

双语

Supervised Fine Tuning on Curated Data Is Reinforcement Learning

10 months ago
  • #Machine Learning
  • #Supervised Fine-Tuning
  • #Reinforcement Learning
  • 行为克隆(BC)在精选数据上是大型语言模型监督微调(SFT)和模仿学习的主要方法。
  • SFT可视为在稀疏奖励设置中对强化学习(RL)目标函数下界的最大化。
  • 改进版SFT(称为重要性加权监督微调iw-SFT)通过优化更紧致的RL目标边界来提升性能。
  • iw-SFT易于实现,并可推广至带质量评分数据的训练场景。
  • 这些SFT变体在大型语言模型和连续控制任务中与先进RL算法表现相当,在AIME 2024数据集上达到66.7%的准确率。