Hasty Briefsbeta

双语

Cloudflare's Resilience plan following recent outages (Code Orange)

5 months ago
  • #Cloudflare
  • #Resilience
  • #Network Outage
  • Cloudflare在2025年11月和12月经历两次重大网络中断,分别持续超过2小时和25分钟
  • 公司已启动'Code Orange: Fail Small'计划,优先保障网络韧性并预防未来中断
  • 重点改进领域包括配置变更的受控滚动部署、改进故障模式、修订'break glass'应急流程
  • 两次中断均由缺乏保护措施的配置变更全球即时部署所引发
  • Cloudflare计划对配置变更实施健康中介部署(HMD)机制,类似软件更新流程
  • 公司正在解决服务间的故障模式问题,确保错误得到优雅处理
  • 通过修订安全访问权限和消除循环依赖,提升紧急事件响应速度
  • 到2026年第一季度,Cloudflare计划实现所有生产系统覆盖HMD、更新故障模式并完善应急访问流程
  • 这些事件凸显了配置变更需要与软件更新同等谨慎对待的重要性