Cloudflare's Resilience plan following recent outages (Code Orange)
5 months ago
- #Cloudflare
- #Resilience
- #Network Outage
- Cloudflare在2025年11月和12月经历两次重大网络中断,分别持续超过2小时和25分钟
- 公司已启动'Code Orange: Fail Small'计划,优先保障网络韧性并预防未来中断
- 重点改进领域包括配置变更的受控滚动部署、改进故障模式、修订'break glass'应急流程
- 两次中断均由缺乏保护措施的配置变更全球即时部署所引发
- Cloudflare计划对配置变更实施健康中介部署(HMD)机制,类似软件更新流程
- 公司正在解决服务间的故障模式问题,确保错误得到优雅处理
- 通过修订安全访问权限和消除循环依赖,提升紧急事件响应速度
- 到2026年第一季度,Cloudflare计划实现所有生产系统覆盖HMD、更新故障模式并完善应急访问流程
- 这些事件凸显了配置变更需要与软件更新同等谨慎对待的重要性