Hasty Briefsbeta

双语

Building Jetflow: a framework for performant data pipelines at Cloudflare

10 months ago

#big-data
#data-engineering
#cloudflare

Cloudflare商业智能团队管理着PB级数据湖，每天从各种来源摄取1410亿行数据。
现有ELT解决方案无法满足Cloudflare不断增长的数据需求，因此开发了定制框架Jetflow。
Jetflow实现了超过100倍的GB-s效率提升，将作业时间从48小时缩短至5.5小时，同时降低内存使用。
性能提升超10倍，单数据库连接的摄取速率从每秒6-8万行跃升至200-500万行。
Jetflow采用模块化设计支持扩展，兼容ClickHouse、Postgres、Kafka、SaaS API及Google BigQuery等多种系统。
框架核心需求包括性能、向后兼容性、易用性、可定制性和可测试性。
通过YAML配置将管道分解为消费者(Consumers)、转换器(Transformers)和加载器(Loaders)，实现灵活部署。
数据按RunInstance、Partition和Batch三级划分，确保幂等处理与高效并行化。
选用Arrow作为内部数据格式，兼顾兼容性、效率与最小化序列化开销。
优化策略包括列式数据读取，避免不必要的行列转换以提升性能。
ClickHouse和Postgres的案例研究显示，通过优化驱动和直接数据处理实现了显著性能提升。
截至2025年7月初，Jetflow日处理770亿条记录，计划迁移全部作业后达到1410亿条。
未来计划开源Jetflow并扩充团队，持续开发此类工具。