Vortex – An extensible, state of the art columnar file format
3 months ago
- #data-processing
- #open-source
- #columnar-format
- Vortex是新一代列式文件格式,专为高性能数据处理设计
- 相比Apache Parquet,其随机读取速度快100倍,扫描速度快10-20倍,写入速度快5倍
- 采用可扩展架构,支持可插拔的编码方式、类型系统、压缩算法和布局策略
- 以Apache-2.0协议开源,由Linux基金会(LF AI & Data)监管
- 集成Arrow、DataFusion、DuckDB、Spark、Pandas、Polars等框架,即将支持Apache Iceberg
- 0.36.0版本起文件格式稳定,确保向后兼容性
- 严格分离逻辑层与物理层,内置扩展编码机制
- 具备零拷贝Arrow集成、可扩展编码、级联压缩、丰富统计信息等特性
- 支持Rust的Cargo和Python的UV安装,提供'vx'命令行工具浏览文件
- 建议搭配MiMalloc内存分配器实现最佳性能
- 安全漏洞可报告至[email protected]
- 鸣谢BtrBlocks、FastLanes、FSST及Apache等学术与开源社区的贡献