Hasty Briefsbeta

双语

Gemini Embedding 2: natively multimodal embedding model

2 months ago
  • #AI
  • #embedding
  • #multimodal
  • Gemini Embedding 2是谷歌首个原生多模态嵌入模型
  • 该模型支持在统一嵌入空间中处理文本、图像、视频、音频和文档
  • 可单次请求处理交错输入(如图像+文本组合)
  • 支持8192个文本token/6张图像/120秒视频/6页PDF的输入规模
  • 采用套娃表示学习(MRL)技术实现灵活输出维度
  • 在文本/图像/视频任务上超越主流模型
  • 早期合作伙伴正将其应用于RAG/语义搜索等高价值多模态场景
  • 通过Gemini API和Vertex AI提供,兼容LangChain/LlamaIndex等工具链