Hasty Briefsbeta

双语

Vortex – An extensible, state of the art columnar file format

3 months ago
  • #data-processing
  • #open-source
  • #columnar-format
  • Vortex是新一代列式文件格式,专为高性能数据处理设计
  • 相比Apache Parquet,其随机读取速度快100倍,扫描速度快10-20倍,写入速度快5倍
  • 采用可扩展架构,支持可插拔的编码方式、类型系统、压缩算法和布局策略
  • 以Apache-2.0协议开源,由Linux基金会(LF AI & Data)监管
  • 集成Arrow、DataFusion、DuckDB、Spark、Pandas、Polars等框架,即将支持Apache Iceberg
  • 0.36.0版本起文件格式稳定,确保向后兼容性
  • 严格分离逻辑层与物理层,内置扩展编码机制
  • 具备零拷贝Arrow集成、可扩展编码、级联压缩、丰富统计信息等特性
  • 支持Rust的Cargo和Python的UV安装,提供'vx'命令行工具浏览文件
  • 建议搭配MiMalloc内存分配器实现最佳性能
  • 安全漏洞可报告至[email protected]
  • 鸣谢BtrBlocks、FastLanes、FSST及Apache等学术与开源社区的贡献