DeepCoder: An Open-Source 14B Coder at O3-Mini Level
a year ago
- #Reinforcement Learning
- #AI
- #Open Source
- DeepCoder-14B-Preview是由Agentica和Together AI联合开发的140亿参数代码推理模型,在LiveCodeBench基准测试中达到60.6%的Pass@1准确率。
- 该模型通过在32张H100 GPU上对2.4万个高质量可验证编程问题进行为期2.5周的强化学习训练而成。
- 数据集构建过程严格筛选了来自TACO Verified、PrimeIntellect的SYNTHETIC-1和LiveCodeBench的编程问题以确保质量。
- 采用稀疏结果奖励模型(ORM)避免奖励作弊机制,要求生成代码必须通过所有抽样单元测试。
- 训练优化包含GRPO+(GRPO的稳定版本)和迭代式上下文延长技术,以提升长上下文推理能力。
- DeepCoder-14B-Preview在LiveCodeBench和Codeforces等编程基准测试中表现优异,性能对标OpenAI的o3-mini模型。
- 通过verl-pipeline等系统优化将训练时间缩短2.5倍,实现长上下文模型的快速强化学习训练。
- 该项目完全开源,包含数据集、代码和训练日志,旨在推动大语言模型强化学习训练的民主化。