Hasty Briefsbeta

双语

Cloudflare incident on August 21, 2025

9 months ago
  • #Network Congestion
  • #Cloudflare
  • #AWS
  • 2025年8月21日,AWS美国东部1区单一客户流量激增,导致Cloudflare与该区域之间的链路出现严重拥塞,引发高延迟、数据包丢失及连接故障。
  • 事件始于UTC时间16:27,主要问题于19:38基本解决,但间歇性故障持续至20:18。
  • 拥塞原因是流量峰值使Cloudflare通往AWS美国东部1区的链路超载,而AWS撤回BGP通告以缓解拥塞的做法加剧了问题。
  • Cloudflare内部网络容量不足的原因包括既有链路仅半容量运行,以及待实施的DCI升级尚未完成。
  • Cloudflare与AWS协同实施多项缓解措施,包括对问题客户限速及调整BGP通告。
  • 此次事件暴露出需改进客户流量隔离机制并提升网络容量,以防未来发生类似事故。
  • 短期解决方案包括降级引发拥塞的客户流量优先级,并加速DCI升级进程。
  • 长期规划将建立新流量管理系统,实现按客户分配网络资源及自动化拥塞响应。
  • Cloudflare对服务中断致歉,并表示正在落实各项改进措施以防止问题重现。