Gemini Embedding 2发布

Google又丢了个王炸出来。#谷歌最新模型##Gemini Embedding2##Embedding模型#
刚刚发布的Gemini Embedding 2，不是简单的升级，是把RAG和多模态搜索重新定义了。文字、图片、视频、音频，第一次在同一个向量空间里实现对齐。

以前处理音视频，得先转文字再向量化，信息早损耗得差不多了。现在不用了，它原生理解视频和音频，最长支持120秒的视频片段，不用抽帧，直接看懂。音频也绕过了ASR转录，误差归零。

输入上限也很夸张：文本8192 tokens，一次6张图，6页PDF直接吞。最狠的是交错输入——你可以把文字、截图、音频、PDF混在一起丢进去，模型能理解这些不同形态信息之间的深层关系。

还支持维度自适应，3072、1536、768随便切，性能和灵活性都给你。

这东西落地场景很多：法律审计跨模态搜证，内容平台视频理解，个人AI助手真正记住你的生活。

目前已经在Gemini API和Vertex AI开放预览。做多模态检索的，值得测一下。
#科技先锋官# http://t.cn/AXVNiEDq

发布于广东