Chrome's New Embedding Model: Smaller, Faster, Same Quality

a year ago

Chrome最新版本推出了全新的文本嵌入模型，其体积比前代缩小57%（35.14MB对比81.91MB），同时在语义搜索任务中保持近乎相同的性能表现。
模型缩小的核心方案是将嵌入矩阵从float32精度量化至int8，这一技术实现未造成可测量的嵌入质量或搜索排序效果下降。
新模型保持完全相同的架构设计，张量数量相近（611对比606），输入输出维度完全一致（[1,64]输入和[1,768]输出），表明其源自同一基础模型——很可能是类似BERT的基于Transformer的嵌入架构。
尽管内部采用量化处理，新模型输出的嵌入向量仍保持float32完整精度，且有效精度略有提升（25.42比特对比22.59比特），这反映出采用了精密的量化感知训练技术。
多样化查询测试显示相似度评分几乎完全一致（差异仅0.001-0.004），多数查询结果排序完全相同，推理速度还略有提升（加快1-2%）。
此项优化为Chrome用户带来多重收益：存储占用降低、浏览器更新更快、资源效率提升、质量保持稳定，移动设备端还可能延长电池续航。
该方案证明：针对特定模型组件进行选择性量化，比整体量化策略更有效。这种技术路径对浏览器等边缘应用极具价值——在存储效率至关重要的场景下，仍能确保性能不受妥协。

Hasty Briefsbeta