Hasty Briefsbeta

双语

ANN v3: 200ms p99 query latency over 100B vectors

4 months ago

#scalability
#machine-learning
#vector-search

追求规模并非虚荣；从第一性原理优化现有系统可以催生全新的创新。
深度学习过去十年的爆发式发展证明，将沉淀数十年的理论构想与硬件进步、专业领域知识相结合，能产生惊人成果。
Turbopuffer的近似最近邻搜索系统(ANN)v3版本支持单索引内千亿级向量的检索规模。
ANN v3架构设计可处理200TiB稠密向量数据，同时保持高查询率(>1000次/秒)与低延迟(<200毫秒)。
该系统受带宽制约，性能瓶颈在于高效获取和处理海量向量数据的能力。
层次化聚类与二进制量化是平衡带宽需求、优化缓存空间利用的核心技术。
二进制量化实现16-32倍的向量压缩，大幅降低内存带宽需求并提升吞吐量。
RaBitQ量化方法通过利用高维空间的数学特性，在压缩同时保持高召回率。
采用存储密集型机器分布式架构，使系统在保持高效的同时支持无限扩展的索引规模。
ANN v3在千亿级数据规模下实现数千QPS的查询性能，99%请求延迟低于200毫秒，完全满足生产环境需求。