Cursor Composer: Building a fast frontier model with RL
7 months ago
- #AI
- #Software Engineering
- #Reinforcement Learning
- Composer是一种专为软件工程智能与速度设计的新型代理模型,其编码生成速度达到同类模型的四倍,实现了前沿的代码生成效果。
- 该模型经过训练可应对大型代码库中的实际软件工程挑战,通过高效使用生产级搜索与编辑工具解决多样化问题。
- Composer是基于专家混合(MoE)架构的语言模型,通过强化学习(RL)专门优化软件工程能力,支持长上下文生成与理解。
- 模型采用Cursor Bench基准进行评估,该基准从代码正确性和遵循代码库规范等维度衡量对软件开发者的实用价值。
- 强化学习机制优化了交互式开发体验,激励模型高效使用工具、并行处理任务,并减少非必要响应。
- 训练基础设施基于PyTorch和Ray框架实现大规模异步强化学习,采用MXFP8 MoE内核进行低精度训练以加速推理。
- Composer可调用Cursor Agent工具集中的多种工具,其有效训练需要数十万个并发的沙盒编码环境支持。
- 该模型已被Cursor团队用于日常软件开发,致力于成为用户的高效生产力工具。