Hasty Briefsbeta

双语

GitHub - THUDM/slime: slime is an LLM post-training framework for RL Scaling.

12 days ago
  • #RL-framework
  • #LLM-training
  • #post-training
  • slime是一个面向RL扩展的LLM训练后框架,提供高性能训练和灵活的数据生成能力。
  • 它支持GLM-4系列、Qwen3系列、DeepSeek V3系列及Llama 3等模型。
  • 核心模块包含训练(Megatron)、推演(SGLang + 路由)和数据缓冲。
  • slime驱动了P1(物理推理)、RLVE(可验证环境)、TritonForge(GPU内核)、APRIL(推演优化)和qqr(智能体进化)等项目。
  • 参数分为Megatron相关、SGLang相关及slime专用三类,详细用法见文档。
  • 欢迎贡献代码,贡献指南包含代码风格统一与调试说明。
  • 特别致谢SGLang、Megatron-LM等项目,并附引用指引。