Building an RL environment to train agents for production debugging
4 months ago
- #Ops Diagnostics
- #RL Environment
- #Automation
- 为运维诊断开发了一个强化学习环境,使智能体能够跨Sentry、Supabase、Railway和Kubernetes进行调查
- 在24个真实生产任务上训练模型,实现了性能2倍的提升
- 工程师花费10-20%时间调试生产环境问题,这推动了对自动化解决方案的需求
- 创建了由子智能体(Sentry/Supabase/Kubernetes)组成的架构而非单一全能智能体,提高了效率
- 将该架构作为名为cross-service-diagnostics的公共HUD环境发布于GitHub
- 使用真实生产数据中的24个多样化任务训练Sentry子智能体,确保泛化能力
- 采用强化学习优化子智能体,训练耗时约13小时并收集3000+条轨迹
- 训练后的模型(sentry-o4-mini)相比基础模型实现了2倍的性能提升
- 该环境设计原则可推广到任何工具型智能体的强化学习场景,不限于运维诊断
- 完整记录了智能体调查轨迹,支持回放分析