R-Zero: Self-Evolving Reasoning LLM from Zero Data
8 months ago
- #Machine Learning
- #Autonomous Learning
- #Large Language Models
- 介绍R-Zero框架:一个完全自主的大型语言模型(LLM)自我进化系统
- R-Zero无需依赖人工标注数据或预设任务,能够从零生成自己的训练数据
- 采用双模型协同进化机制:挑战者(Challenger)与解答者(Solver)通过交互实现共同进化
- 挑战者持续生成逼近解答者能力边界的任务,解答者则通过完成渐进式挑战获得奖励
- 实证研究显示显著提升推理能力,在数学推理和通用领域推理基准测试中表现突出
- 展现出超越人类智能的扩展潜力,为AI系统进化提供新范式