Lance v2: A columnar container format for modern data (2024)
10 months ago
- #data-format
- #AI-ML
- #performance
- Lance v2的推出旨在解决现有格式(如Parquet)在处理AI/ML工作负载时效率低下的问题。
- Lance v2的关键用例包括点查询、宽列、超宽模式、灵活编码和灵活元数据。
- Lance v2取消了行组概念,通过优化理想页大小和解耦I/O与计算来提升性能。
- 该格式允许各列长度不同,支持'逐数组'或'逐批'的数据写入方式。
- Lance v2将编码视为扩展功能,无需修改文件格式即可轻松添加新编码。
- 该格式不强制类型系统,保持规范简洁并避免生态系统碎片化。
- 数据放置的灵活性(页缓冲/列缓冲/文件缓冲)支持传统表格数据之外的新用例。
- Lance v2的统计信息作为编码过程的一部分,支持区域映射、布隆过滤器等多种形式。
- Lance v2的初始实现已发布,其性能可与最佳Parquet阅读器相媲美。
- 社区正在寻求帮助以扩展用例、基准测试、集成测试和生态系统整合。