Hasty Briefsbeta

双语

Cloudflare's approach to global service health metrics and software releases

a year ago

#Cloudflare
#DevOps
#Observability

Cloudflare的健康中介部署(HMD)通过数据驱动指标自动化软件更新，防止大面积故障发生
HMD使用Prometheus和Thanos监控服务健康状态，在问题更新影响用户前自动回滚
服务等级目标(SLO)和指标(SLI)帮助HMD检测并响应性能下降问题
通过历史事故数据进行回测，确保HMD能快速应对未来可能出现的问题
Cloudflare在R2存储系统中保存了45亿个时间序列，8PB数据保留一年时长
采用记录规则和分布式查询处理等优化手段，将批量运行时间从30小时缩短至2小时
拥塞控制机制优先处理关键查询，平滑批量处理的高峰负载
基于Parquet格式的实验性存储方案，为时间序列数据处理优化展示了良好前景