ClickHouse Full-Text Search
9 months ago
- #full-text-search
- #database
- #performance
- ClickHouse彻底重构了其全文搜索(FTS)功能,使其更快速、更精简,并与列式数据库设计完全集成。
- 新版FTS实现采用倒排索引、有限状态转换器(FST)和Roaring位图技术,实现高效存储检索。
- 关键改进包括:更简洁的API、新增分词器(如处理半结构化文本的'split'分词器),以及通过PFOR和Zstd压缩降低内存/磁盘占用。
- 现采用布隆过滤器作为预过滤器,显著减少搜索时的I/O和CPU开销。
- 新增'searchAny'和'searchAll'搜索函数,提供更直观灵活的查询能力。
- 重大优化:支持无需读取文本列的行级过滤,性能提升高达10倍。
- 该FTS现已兼容ClickHouse Cloud并支持打包部件格式。
- 基准测试显示性能显著提升,特别是对高频词汇的冷热运行优化效果突出。