Cloudflare incident on August 21, 2025
9 months ago
- #Network Congestion
- #Cloudflare
- #AWS
- 2025年8月21日,AWS美国东部1区单一客户流量激增,导致Cloudflare与该区域之间的链路出现严重拥塞,引发高延迟、数据包丢失及连接故障。
- 事件始于UTC时间16:27,主要问题于19:38基本解决,但间歇性故障持续至20:18。
- 拥塞原因是流量峰值使Cloudflare通往AWS美国东部1区的链路超载,而AWS撤回BGP通告以缓解拥塞的做法加剧了问题。
- Cloudflare内部网络容量不足的原因包括既有链路仅半容量运行,以及待实施的DCI升级尚未完成。
- Cloudflare与AWS协同实施多项缓解措施,包括对问题客户限速及调整BGP通告。
- 此次事件暴露出需改进客户流量隔离机制并提升网络容量,以防未来发生类似事故。
- 短期解决方案包括降级引发拥塞的客户流量优先级,并加速DCI升级进程。
- 长期规划将建立新流量管理系统,实现按客户分配网络资源及自动化拥塞响应。
- Cloudflare对服务中断致歉,并表示正在落实各项改进措施以防止问题重现。