Hasty Briefsbeta

双语

Building an RL environment to train agents for production debugging

4 months ago
  • #Ops Diagnostics
  • #RL Environment
  • #Automation
  • 为运维诊断开发了一个强化学习环境,使智能体能够跨Sentry、Supabase、Railway和Kubernetes进行调查
  • 在24个真实生产任务上训练模型,实现了性能2倍的提升
  • 工程师花费10-20%时间调试生产环境问题,这推动了对自动化解决方案的需求
  • 创建了由子智能体(Sentry/Supabase/Kubernetes)组成的架构而非单一全能智能体,提高了效率
  • 将该架构作为名为cross-service-diagnostics的公共HUD环境发布于GitHub
  • 使用真实生产数据中的24个多样化任务训练Sentry子智能体,确保泛化能力
  • 采用强化学习优化子智能体,训练耗时约13小时并收集3000+条轨迹
  • 训练后的模型(sentry-o4-mini)相比基础模型实现了2倍的性能提升
  • 该环境设计原则可推广到任何工具型智能体的强化学习场景,不限于运维诊断
  • 完整记录了智能体调查轨迹,支持回放分析