Hasty Briefsbeta

双语

Cloudflare's approach to global service health metrics and software releases

a year ago
  • #Cloudflare
  • #DevOps
  • #Observability
  • Cloudflare的健康中介部署(HMD)通过数据驱动指标自动化软件更新,防止大面积故障发生
  • HMD使用Prometheus和Thanos监控服务健康状态,在问题更新影响用户前自动回滚
  • 服务等级目标(SLO)和指标(SLI)帮助HMD检测并响应性能下降问题
  • 通过历史事故数据进行回测,确保HMD能快速应对未来可能出现的问题
  • Cloudflare在R2存储系统中保存了45亿个时间序列,8PB数据保留一年时长
  • 采用记录规则和分布式查询处理等优化手段,将批量运行时间从30小时缩短至2小时
  • 拥塞控制机制优先处理关键查询,平滑批量处理的高峰负载
  • 基于Parquet格式的实验性存储方案,为时间序列数据处理优化展示了良好前景