Hasty Briefsbeta

双语

Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

a year ago
  • #AI
  • #Decentralized Training
  • #Reinforcement Learning
  • INTELLECT-2 是首个通过全球分布式强化学习训练完成的320亿参数模型。
  • 该模型采用PRIME-RL框架——一个支持分布式异步强化学习的训练系统,包含TOPLOC和SHARDCAST等核心组件。
  • 训练数据包含来自NuminaMath-1.5、Deepscaler和SYNTHETIC-1的28.5万个可验证任务。
  • 模型在QwQ-32B基础上改进,优化了GRPO训练方案并采用先进数据过滤技术。
  • 未来计划包括提升推理与训练算力配比、工具调用功能、众包强化学习任务及模型融合技术。
  • 文章还详细演示了关于二次多项式P(x)与Q(x)的数学问题求解过程。