Hasty Briefsbeta

双语

Gemini Embedding 2: natively multimodal embedding model

2 months ago

#AI
#embedding
#multimodal

Gemini Embedding 2是谷歌首个原生多模态嵌入模型
该模型支持在统一嵌入空间中处理文本、图像、视频、音频和文档
可单次请求处理交错输入（如图像+文本组合）
支持8192个文本token/6张图像/120秒视频/6页PDF的输入规模
采用套娃表示学习(MRL)技术实现灵活输出维度
在文本/图像/视频任务上超越主流模型
早期合作伙伴正将其应用于RAG/语义搜索等高价值多模态场景
通过Gemini API和Vertex AI提供，兼容LangChain/LlamaIndex等工具链