Hasty Briefsbeta

双语

Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

a year ago

#AI
#Decentralized Training
#Reinforcement Learning

INTELLECT-2 是首个通过全球分布式强化学习训练完成的320亿参数模型。
该模型采用PRIME-RL框架——一个支持分布式异步强化学习的训练系统，包含TOPLOC和SHARDCAST等核心组件。
训练数据包含来自NuminaMath-1.5、Deepscaler和SYNTHETIC-1的28.5万个可验证任务。
模型在QwQ-32B基础上改进，优化了GRPO训练方案并采用先进数据过滤技术。
未来计划包括提升推理与训练算力配比、工具调用功能、众包强化学习任务及模型融合技术。
文章还详细演示了关于二次多项式P(x)与Q(x)的数学问题求解过程。