Gemini Embedding 2: natively multimodal embedding model
2 months ago
- #AI
- #embedding
- #multimodal
- Gemini Embedding 2是谷歌首个原生多模态嵌入模型
- 该模型支持在统一嵌入空间中处理文本、图像、视频、音频和文档
- 可单次请求处理交错输入(如图像+文本组合)
- 支持8192个文本token/6张图像/120秒视频/6页PDF的输入规模
- 采用套娃表示学习(MRL)技术实现灵活输出维度
- 在文本/图像/视频任务上超越主流模型
- 早期合作伙伴正将其应用于RAG/语义搜索等高价值多模态场景
- 通过Gemini API和Vertex AI提供,兼容LangChain/LlamaIndex等工具链