Lance table format explained simply, stupid (Animated)
3 months ago
- #big-data
- #file-format
- #AI
- Lance是一种文件格式、表格式和目录规范,专为随机读取优化,支持无需数据拷贝的即时列追加。
- Lance的核心特性包括:在保持顺序读取性能的同时,针对随机读取(如WHERE id = 123)进行性能优化。
- Lance表格式支持多种索引类型,包括B树索引、倒排索引(全文检索)和向量索引(例如HNSW)。
- 由于AI驱动的多模态数据湖需求增长,出现了SpiralDB的vortex等竞争技术。
- 2025年大数据领域重要更新包括:Iceberg V3支持VARIANT类型、turbopuffer的向量搜索功能、面向Flink流的Apache Fluss框架,以及Datadog和Databricks的收购行动。