ANN v3: 200ms p99 query latency over 100B vectors
4 months ago
- #scalability
- #machine-learning
- #vector-search
- 追求规模并非虚荣;从第一性原理优化现有系统可以催生全新的创新。
- 深度学习过去十年的爆发式发展证明,将沉淀数十年的理论构想与硬件进步、专业领域知识相结合,能产生惊人成果。
- Turbopuffer的近似最近邻搜索系统(ANN)v3版本支持单索引内千亿级向量的检索规模。
- ANN v3架构设计可处理200TiB稠密向量数据,同时保持高查询率(>1000次/秒)与低延迟(<200毫秒)。
- 该系统受带宽制约,性能瓶颈在于高效获取和处理海量向量数据的能力。
- 层次化聚类与二进制量化是平衡带宽需求、优化缓存空间利用的核心技术。
- 二进制量化实现16-32倍的向量压缩,大幅降低内存带宽需求并提升吞吐量。
- RaBitQ量化方法通过利用高维空间的数学特性,在压缩同时保持高召回率。
- 采用存储密集型机器分布式架构,使系统在保持高效的同时支持无限扩展的索引规模。
- ANN v3在千亿级数据规模下实现数千QPS的查询性能,99%请求延迟低于200毫秒,完全满足生产环境需求。