Hasty Briefsbeta

双语

R-Zero: Self-Evolving Reasoning LLM from Zero Data

8 months ago
  • #Machine Learning
  • #Autonomous Learning
  • #Large Language Models
  • 介绍R-Zero框架:一个完全自主的大型语言模型(LLM)自我进化系统
  • R-Zero无需依赖人工标注数据或预设任务,能够从零生成自己的训练数据
  • 采用双模型协同进化机制:挑战者(Challenger)与解答者(Solver)通过交互实现共同进化
  • 挑战者持续生成逼近解答者能力边界的任务,解答者则通过完成渐进式挑战获得奖励
  • 实证研究显示显著提升推理能力,在数学推理和通用领域推理基准测试中表现突出
  • 展现出超越人类智能的扩展潜力,为AI系统进化提供新范式