谷歌Gemini Embedding 2公测跨模态检索打通
首个原生多模态嵌入模型,简单说就是把文本、图片、视频、音频、PDF全扔进同一个向量空间,搜东西一下子打通了
最实用的几个场景:文字搜图片,输入“雨中撑伞的复古女孩”,模型能从图库里精准拉出匹配图;图片搜视频,上传一张“街头滑板少年”照,能找出相似动作片段;还能图片搜图、图文混搜文档
召回率和精度比之前方案高不少,电商找同款、短视频推荐、法律档案检索都能用
现在Gemini API和Google AI Studio可以直接调用gemini-embedding-2-preview,输出维度可调,延迟低,支持100多种语言。想升级多媒体搜索或RAG的,可以直接上手测,效果确实香#谷歌gemini#
发布于 福建
