薛梓淇Zikii 26-03-15 08:04
微博认证:科技博主

谷歌Gemini Embedding 2公测跨模态检索打通

首个原生多模态嵌入模型,简单说就是把文本、图片、视频、音频、PDF全扔进同一个向量空间,搜东西一下子打通了

最实用的几个场景:文字搜图片,输入“雨中撑伞的复古女孩”,模型能从图库里精准拉出匹配图;图片搜视频,上传一张“街头滑板少年”照,能找出相似动作片段;还能图片搜图、图文混搜文档

召回率和精度比之前方案高不少,电商找同款、短视频推荐、法律档案检索都能用

现在Gemini API和Google AI Studio可以直接调用gemini-embedding-2-preview,输出维度可调,延迟低,支持100多种语言。想升级多媒体搜索或RAG的,可以直接上手测,效果确实香#谷歌gemini#

发布于 福建