Have your cake and decompress it too
3 months ago
- #data-storage
- #performance
- #compression
- Vortex采用BtrBlocks风格的编解码器选择机制,相比Parquet+ZSTD组合实现了更优的压缩率与速度
- 在TPC-H基准测试(比例因子10)中,Vortex文件体积比ZSTD压缩的Parquet小38%,解压速度快10-25倍
- Parquet采用双层压缩架构:先进行轻量级编码,再使用ZSTD等通用压缩算法
- BtrBlocks和Vortex采用轻量级编码的递归级联技术,可链式组合多个支持快速随机访问的编解码器
- Vortex通过采样技术高效确定最佳压缩方案,无需处理完整数据集
- Vortex提供针对整数、浮点数、字符串和时间数据的专用压缩器,每种类型都有定制化编码方案
- Vortex内置两种压缩策略:默认模式(轻量级编码)和紧凑模式(增加PCodec和ZSTD实现最大压缩)
- Vortex支持按列配置压缩参数,允许用户逐列优化速度或压缩率
- Vortex在延迟统计计算、自适应采样和额外编码方案等方面与BtrBlocks存在差异
- 未来可能开发领域特定编码、PCodec集成和跨列压缩技术等方向