Hasty Briefsbeta

双语

Supervised Fine Tuning on Curated Data Is Reinforcement Learning

10 months ago

#Machine Learning
#Supervised Fine-Tuning
#Reinforcement Learning

行为克隆（BC）在精选数据上是大型语言模型监督微调（SFT）和模仿学习的主要方法。
SFT可视为在稀疏奖励设置中对强化学习（RL）目标函数下界的最大化。
改进版SFT（称为重要性加权监督微调iw-SFT）通过优化更紧致的RL目标边界来提升性能。
iw-SFT易于实现，并可推广至带质量评分数据的训练场景。
这些SFT变体在大型语言模型和连续控制任务中与先进RL算法表现相当，在AIME 2024数据集上达到66.7%的准确率。