Bauplan – Git-for-data pipelines on object storage
a year ago
- #python
- #serverless
- #data-platform
- Bauplan是一个面向大规模数据管道的Python化数据平台,在S3数据湖上实现类Git的数据版本管理
- 无需管理基础设施即可运行机器学习工作流、AI应用和数据转换管道
- 由ML和数据工程师构建,旨在简化云基础设施管理
- 简单性:直接编写Python函数构建管道,无需容器化或Spark
- 鲁棒性:具备Git式数据版本控制(Refs),确保可复现性和审计追踪能力
- 原生Python支持:无需领域特定语言、YAML配置或Spark
- S3表操作:将Parquet/CSV转换为支持ACID事务的Iceberg表
- 数据Git化:创建零拷贝分支实现安全协作
- 无服务器管道:在云端运行无状态Python函数
- 全场景SQL支持:跨分支和S3表执行查询
- 数据CI/CD:自动化管道的测试和部署流程
- Refs版本控制系统:追踪管道运行记录,保障可复现性与审计合规