Hasty Briefsbeta

双语

Google's TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x

2 months ago

#AI
#Memory Optimization
#Google Research

生成式AI模型需要大量内存，使得RAM采购成本高昂。
谷歌研究院推出了TurboQuant算法，专为大型语言模型(LLMs)设计压缩方案。
TurboQuant在保持精度的同时，既减小LLMs内存占用又提升运行速度。
该算法针对键值缓存进行优化——该缓存存储关键信息以避免重复计算。
LLMs通过向量映射语义，相似向量代表概念关联性。
高维向量能描述复杂数据，但会占用大量内存影响性能。
传统量化技术虽能压缩模型，但常导致输出质量下降。
TurboQuant实现8倍性能提升和6倍内存压缩，且无质量损失。
TurboQuant采用两步压缩流程，包含高质量压缩组件PolarQuant。
PolarQuant将向量转为极坐标，简化为半径和方向两个维度。