Hasty Briefsbeta

双语

Bauplan – Git-for-data pipelines on object storage

a year ago
  • #python
  • #serverless
  • #data-platform
  • Bauplan是一个面向大规模数据管道的Python化数据平台,在S3数据湖上实现类Git的数据版本管理
  • 无需管理基础设施即可运行机器学习工作流、AI应用和数据转换管道
  • 由ML和数据工程师构建,旨在简化云基础设施管理
  • 简单性:直接编写Python函数构建管道,无需容器化或Spark
  • 鲁棒性:具备Git式数据版本控制(Refs),确保可复现性和审计追踪能力
  • 原生Python支持:无需领域特定语言、YAML配置或Spark
  • S3表操作:将Parquet/CSV转换为支持ACID事务的Iceberg表
  • 数据Git化:创建零拷贝分支实现安全协作
  • 无服务器管道:在云端运行无状态Python函数
  • 全场景SQL支持:跨分支和S3表执行查询
  • 数据CI/CD:自动化管道的测试和部署流程
  • Refs版本控制系统:追踪管道运行记录,保障可复现性与审计合规