GitHub - THUDM/slime: slime is an LLM post-training framework for RL Scaling.
12 days ago
- #RL-framework
- #LLM-training
- #post-training
- slime是一个面向RL扩展的LLM训练后框架,提供高性能训练和灵活的数据生成能力。
- 它支持GLM-4系列、Qwen3系列、DeepSeek V3系列及Llama 3等模型。
- 核心模块包含训练(Megatron)、推演(SGLang + 路由)和数据缓冲。
- slime驱动了P1(物理推理)、RLVE(可验证环境)、TritonForge(GPU内核)、APRIL(推演优化)和qqr(智能体进化)等项目。
- 参数分为Megatron相关、SGLang相关及slime专用三类,详细用法见文档。
- 欢迎贡献代码,贡献指南包含代码风格统一与调试说明。
- 特别致谢SGLang、Megatron-LM等项目,并附引用指引。