Cloudflare's approach to global service health metrics and software releases
a year ago
- #Cloudflare
- #DevOps
- #Observability
- Cloudflare的健康中介部署(HMD)通过数据驱动指标自动化软件更新,防止大面积故障发生
- HMD使用Prometheus和Thanos监控服务健康状态,在问题更新影响用户前自动回滚
- 服务等级目标(SLO)和指标(SLI)帮助HMD检测并响应性能下降问题
- 通过历史事故数据进行回测,确保HMD能快速应对未来可能出现的问题
- Cloudflare在R2存储系统中保存了45亿个时间序列,8PB数据保留一年时长
- 采用记录规则和分布式查询处理等优化手段,将批量运行时间从30小时缩短至2小时
- 拥塞控制机制优先处理关键查询,平滑批量处理的高峰负载
- 基于Parquet格式的实验性存储方案,为时间序列数据处理优化展示了良好前景