Hasty Briefsbeta

双语

Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries

2 months ago

#open-source
#reinforcement-learning
#async-training

异步强化学习训练通过将推理和训练分离到通过回放缓冲区连接的不同GPU池，解决了数据生成期间GPU闲置的瓶颈问题。
调研了16个开源强化学习库，发现普遍采用Ray进行任务编排、NCCL广播进行权重传输等模式。
关键发现包括Ray在编排领域的主导地位、NCCL作为默认权重传输方法，以及对LoRA稀疏支持的情况。
陈旧数据处理方式多样，从丢弃旧样本到使用重要性采样校正均有应用。
部分轨迹处理策略包括隐式延续、中断重试和显式保存/恢复机制。
部分库支持LoRA训练，可实现仅适配器权重的高效同步。
分布式混合专家支持正成为未来验证库差异化的关键特性。
无评论家算法虽降低内存占用，但因更大的组规模增加了权重同步压力。
过程奖励引入了新的同步屏障，需要建立异步奖励管道。
多智能体协同进化加剧了掉队者问题，需要设计片段级缓冲区方案。
混合专家模型中训练-推理不匹配问题需采用保持路由和保持采样掩码等解决方案。
同策略蒸馏与强化学习存在相同的异步协调问题，建议采用统一基础设施方案。
TRL未来异步训练器将聚焦轻量级编排、NCCL权重打包传输和部分轨迹支持等功能。