How big are our embeddings now and why?
8 months ago
- #embeddings
- #machine-learning
- #AI
- 嵌入(Embeddings)是文本、图像和音频等特征的压缩数值表示,用于搜索、推荐和分类等机器学习任务。
- 最初嵌入维度约为200-300,但随着BERT等技术的进步,由于GPU优化和注意力头并行计算需求,维度增至768。
- HuggingFace的兴起及OpenAI等API模型(1536维)使嵌入技术标准化和普及化,提高了可用性。
- 当前嵌入维度介于768到4096之间,受模型架构设计及存储检索效率需求的影响。
- 嵌套表示学习(Matryoshka)和嵌入截断技术等新兴方法,正在优化模型尺寸与性能的平衡。