Hasty Briefsbeta

双语

Lance table format explained simply, stupid (Animated)

3 months ago
  • #big-data
  • #file-format
  • #AI
  • Lance是一种文件格式、表格式和目录规范,专为随机读取优化,支持无需数据拷贝的即时列追加。
  • Lance的核心特性包括:在保持顺序读取性能的同时,针对随机读取(如WHERE id = 123)进行性能优化。
  • Lance表格式支持多种索引类型,包括B树索引、倒排索引(全文检索)和向量索引(例如HNSW)。
  • 由于AI驱动的多模态数据湖需求增长,出现了SpiralDB的vortex等竞争技术。
  • 2025年大数据领域重要更新包括:Iceberg V3支持VARIANT类型、turbopuffer的向量搜索功能、面向Flink流的Apache Fluss框架,以及Datadog和Databricks的收购行动。