Hasty Briefsbeta

双语

Cloudflare outage on November 18, 2025 post mortem

6 months ago
  • #Cloudflare
  • #Bot Management
  • #Network Outage
  • 2025年11月18日Cloudflare发生重大网络故障,导致用户遭遇HTTP 5xx错误。
  • 事故起因是数据库权限变更,导致Bot管理系统特征文件体积翻倍。
  • 系统软件对特征文件设有大小限制,文件超限后触发故障。
  • 最初怀疑是DDoS攻击,实际核心问题通过回滚至早期文件版本得以解决。
  • 核心流量于UTC时间14:30恢复正常,全系统于17:06完成修复。
  • 受影响服务包括核心CDN、Turnstile验证系统、Workers KV、管理面板、邮件安全和Access权限管理。
  • Bot管理系统的机器学习模型因配置文件出现重复特征行而异常。
  • ClickHouse数据库查询变更导致特征文件出现重复条目。
  • 缓解措施包括阻断错误文件传播、手动插入正确文件及系统重启。
  • Cloudflare公布了系统加固方案以避免类似故障再次发生。