Hasty Briefsbeta

双语

Building an RL environment to train agents for production debugging

4 months ago

#Ops Diagnostics
#RL Environment
#Automation

为运维诊断开发了一个强化学习环境，使智能体能够跨Sentry、Supabase、Railway和Kubernetes进行调查
在24个真实生产任务上训练模型，实现了性能2倍的提升
工程师花费10-20%时间调试生产环境问题，这推动了对自动化解决方案的需求
创建了由子智能体（Sentry/Supabase/Kubernetes）组成的架构而非单一全能智能体，提高了效率
将该架构作为名为cross-service-diagnostics的公共HUD环境发布于GitHub
使用真实生产数据中的24个多样化任务训练Sentry子智能体，确保泛化能力
采用强化学习优化子智能体，训练耗时约13小时并收集3000+条轨迹
训练后的模型(sentry-o4-mini)相比基础模型实现了2倍的性能提升
该环境设计原则可推广到任何工具型智能体的强化学习场景，不限于运维诊断
完整记录了智能体调查轨迹，支持回放分析