Hasty Briefsbeta

双语

Building Jetflow: a framework for performant data pipelines at Cloudflare

10 months ago
  • #big-data
  • #data-engineering
  • #cloudflare
  • Cloudflare商业智能团队管理着PB级数据湖,每天从各种来源摄取1410亿行数据。
  • 现有ELT解决方案无法满足Cloudflare不断增长的数据需求,因此开发了定制框架Jetflow。
  • Jetflow实现了超过100倍的GB-s效率提升,将作业时间从48小时缩短至5.5小时,同时降低内存使用。
  • 性能提升超10倍,单数据库连接的摄取速率从每秒6-8万行跃升至200-500万行。
  • Jetflow采用模块化设计支持扩展,兼容ClickHouse、Postgres、Kafka、SaaS API及Google BigQuery等多种系统。
  • 框架核心需求包括性能、向后兼容性、易用性、可定制性和可测试性。
  • 通过YAML配置将管道分解为消费者(Consumers)、转换器(Transformers)和加载器(Loaders),实现灵活部署。
  • 数据按RunInstance、Partition和Batch三级划分,确保幂等处理与高效并行化。
  • 选用Arrow作为内部数据格式,兼顾兼容性、效率与最小化序列化开销。
  • 优化策略包括列式数据读取,避免不必要的行列转换以提升性能。
  • ClickHouse和Postgres的案例研究显示,通过优化驱动和直接数据处理实现了显著性能提升。
  • 截至2025年7月初,Jetflow日处理770亿条记录,计划迁移全部作业后达到1410亿条。
  • 未来计划开源Jetflow并扩充团队,持续开发此类工具。