Hasty Briefsbeta

双语

ClickHouse Full-Text Search

9 months ago
  • #full-text-search
  • #database
  • #performance
  • ClickHouse彻底重构了其全文搜索(FTS)功能,使其更快速、更精简,并与列式数据库设计完全集成。
  • 新版FTS实现采用倒排索引、有限状态转换器(FST)和Roaring位图技术,实现高效存储检索。
  • 关键改进包括:更简洁的API、新增分词器(如处理半结构化文本的'split'分词器),以及通过PFOR和Zstd压缩降低内存/磁盘占用。
  • 现采用布隆过滤器作为预过滤器,显著减少搜索时的I/O和CPU开销。
  • 新增'searchAny'和'searchAll'搜索函数,提供更直观灵活的查询能力。
  • 重大优化:支持无需读取文本列的行级过滤,性能提升高达10倍。
  • 该FTS现已兼容ClickHouse Cloud并支持打包部件格式。
  • 基准测试显示性能显著提升,特别是对高频词汇的冷热运行优化效果突出。