Hasty Briefsbeta

双语

GitHub - THUDM/slime: slime is an LLM post-training framework for RL Scaling.

2 months ago

#RL-framework
#LLM-training
#post-training

slime是一个面向RL扩展的LLM训练后框架，提供高性能训练和灵活的数据生成能力。
它支持GLM-4系列、Qwen3系列、DeepSeek V3系列及Llama 3等模型。
核心模块包含训练（Megatron）、推演（SGLang + 路由）和数据缓冲。
slime驱动了P1（物理推理）、RLVE（可验证环境）、TritonForge（GPU内核）、APRIL（推演优化）和qqr（智能体进化）等项目。
参数分为Megatron相关、SGLang相关及slime专用三类，详细用法见文档。
欢迎贡献代码，贡献指南包含代码风格统一与调试说明。
特别致谢SGLang、Megatron-LM等项目，并附引用指引。