DeepCoder: An Open-Source 14B Coder at O3-Mini Level

a year ago

DeepCoder-14B-Preview是由Agentica和Together AI联合开发的140亿参数代码推理模型，在LiveCodeBench基准测试中达到60.6%的Pass@1准确率。
该模型通过在32张H100 GPU上对2.4万个高质量可验证编程问题进行为期2.5周的强化学习训练而成。
数据集构建过程严格筛选了来自TACO Verified、PrimeIntellect的SYNTHETIC-1和LiveCodeBench的编程问题以确保质量。
采用稀疏结果奖励模型(ORM)避免奖励作弊机制，要求生成代码必须通过所有抽样单元测试。
训练优化包含GRPO+（GRPO的稳定版本）和迭代式上下文延长技术，以提升长上下文推理能力。
DeepCoder-14B-Preview在LiveCodeBench和Codeforces等编程基准测试中表现优异，性能对标OpenAI的o3-mini模型。
通过verl-pipeline等系统优化将训练时间缩短2.5倍，实现长上下文模型的快速强化学习训练。
该项目完全开源，包含数据集、代码和训练日志，旨在推动大语言模型强化学习训练的民主化。

Hasty Briefsbeta