Hasty Briefsbeta

双语

R-Zero: Self-Evolving Reasoning LLM from Zero Data

8 months ago

#Machine Learning
#Autonomous Learning
#Large Language Models

介绍R-Zero框架：一个完全自主的大型语言模型（LLM）自我进化系统
R-Zero无需依赖人工标注数据或预设任务，能够从零生成自己的训练数据
采用双模型协同进化机制：挑战者(Challenger)与解答者(Solver)通过交互实现共同进化
挑战者持续生成逼近解答者能力边界的任务，解答者则通过完成渐进式挑战获得奖励
实证研究显示显著提升推理能力，在数学推理和通用领域推理基准测试中表现突出
展现出超越人类智能的扩展潜力，为AI系统进化提供新范式