Google's TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x
2 months ago
- #AI
- #Memory Optimization
- #Google Research
- 生成式AI模型需要大量内存,使得RAM采购成本高昂。
- 谷歌研究院推出了TurboQuant算法,专为大型语言模型(LLMs)设计压缩方案。
- TurboQuant在保持精度的同时,既减小LLMs内存占用又提升运行速度。
- 该算法针对键值缓存进行优化——该缓存存储关键信息以避免重复计算。
- LLMs通过向量映射语义,相似向量代表概念关联性。
- 高维向量能描述复杂数据,但会占用大量内存影响性能。
- 传统量化技术虽能压缩模型,但常导致输出质量下降。
- TurboQuant实现8倍性能提升和6倍内存压缩,且无质量损失。
- TurboQuant采用两步压缩流程,包含高质量压缩组件PolarQuant。
- PolarQuant将向量转为极坐标,简化为半径和方向两个维度。