Cloudflare outage on November 18, 2025 post mortem
6 months ago
- #Cloudflare
- #Bot Management
- #Network Outage
- 2025年11月18日Cloudflare发生重大网络故障,导致用户遭遇HTTP 5xx错误。
- 事故起因是数据库权限变更,导致Bot管理系统特征文件体积翻倍。
- 系统软件对特征文件设有大小限制,文件超限后触发故障。
- 最初怀疑是DDoS攻击,实际核心问题通过回滚至早期文件版本得以解决。
- 核心流量于UTC时间14:30恢复正常,全系统于17:06完成修复。
- 受影响服务包括核心CDN、Turnstile验证系统、Workers KV、管理面板、邮件安全和Access权限管理。
- Bot管理系统的机器学习模型因配置文件出现重复特征行而异常。
- ClickHouse数据库查询变更导致特征文件出现重复条目。
- 缓解措施包括阻断错误文件传播、手动插入正确文件及系统重启。
- Cloudflare公布了系统加固方案以避免类似故障再次发生。