张岱樾 26-03-11 09:55
微博认证:AI博主

Google又丢了个王炸出来。#谷歌最新模型##Gemini Embedding2##Embedding模型#
刚刚发布的Gemini Embedding 2,不是简单的升级,是把RAG和多模态搜索重新定义了。文字、图片、视频、音频,第一次在同一个向量空间里实现对齐。

以前处理音视频,得先转文字再向量化,信息早损耗得差不多了。现在不用了,它原生理解视频和音频,最长支持120秒的视频片段,不用抽帧,直接看懂。音频也绕过了ASR转录,误差归零。

输入上限也很夸张:文本8192 tokens,一次6张图,6页PDF直接吞。最狠的是交错输入——你可以把文字、截图、音频、PDF混在一起丢进去,模型能理解这些不同形态信息之间的深层关系。

还支持维度自适应,3072、1536、768随便切,性能和灵活性都给你。

这东西落地场景很多:法律审计跨模态搜证,内容平台视频理解,个人AI助手真正记住你的生活。

目前已经在Gemini API和Vertex AI开放预览。做多模态检索的,值得测一下。
#科技先锋官# http://t.cn/AXVNiEDq

发布于 广东