Chrome's New Embedding Model: Smaller, Faster, Same Quality
a year ago
- #Machine Learning
- #Chrome
- #Quantization
- Chrome最新版本推出了全新的文本嵌入模型,其体积比前代缩小57%(35.14MB对比81.91MB),同时在语义搜索任务中保持近乎相同的性能表现。
- 模型缩小的核心方案是将嵌入矩阵从float32精度量化至int8,这一技术实现未造成可测量的嵌入质量或搜索排序效果下降。
- 新模型保持完全相同的架构设计,张量数量相近(611对比606),输入输出维度完全一致([1,64]输入和[1,768]输出),表明其源自同一基础模型——很可能是类似BERT的基于Transformer的嵌入架构。
- 尽管内部采用量化处理,新模型输出的嵌入向量仍保持float32完整精度,且有效精度略有提升(25.42比特对比22.59比特),这反映出采用了精密的量化感知训练技术。
- 多样化查询测试显示相似度评分几乎完全一致(差异仅0.001-0.004),多数查询结果排序完全相同,推理速度还略有提升(加快1-2%)。
- 此项优化为Chrome用户带来多重收益:存储占用降低、浏览器更新更快、资源效率提升、质量保持稳定,移动设备端还可能延长电池续航。
- 该方案证明:针对特定模型组件进行选择性量化,比整体量化策略更有效。这种技术路径对浏览器等边缘应用极具价值——在存储效率至关重要的场景下,仍能确保性能不受妥协。