Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
4 months ago
- #Machine Learning
- #Reinforcement Learning
- #Meta-Learning
- 研究预训练大语言模型能否为其无法解决的问题生成自动化课程体系
- 提出SOAR框架:通过元强化学习实现自我提升,教师模型为学生模型生成合成问题
- SOAR将课程设计锚定于可测量的学生进度,而非依赖内在代理奖励
- 实验在数学基准测试最困难子集上进行(初始成功率0/128)
- 核心发现证实了二元稀疏奖励下的双层元强化学习可行性
- 基于实际进展的奖励机制优于内在奖励方案,能避免训练不稳定与多样性崩溃
- 生成问题的结构质量与明确性对学习进度的影响大于解题正确性
- 表明生成有效阶梯式问题并不需要初始具备解决难题的能力