谷歌发布多模态嵌入模型

谷歌昨晚发的这个嵌入模型真的赞，Gemini Embedding 2（gemini-embedding-2-preview），谷歌首个多模态嵌入模型，它将文本、图片、视频、音频和文档映射到统一的嵌入空间中，从而能够以 100 多种语言进行跨模态搜索、分类和聚类。

文本：最多支持 8,192 个 token
Image：每个请求最多可包含 6 张图片。支持的格式：PNG、JPEG
音频：时长上限为 80 秒。支持的格式：MP3、WAV
视频：时长上限为 128 秒。支持的格式：MP4、MOV，支持的编解码器：H264、H265、AV1、VP9
- 文档 (PDF)：最多 6 页

对于纯文本用例，原来的 gemini-embedding-001 仍然可用。不过要注意，gemini-embedding-001 和 gemini-embedding-2-preview 之间的嵌入空间不兼容。

文档：ai.google.dev/gemini-api/docs/embeddings
在谷歌 AI Studio 里面可以体验：aistudio.google.com/apps/bundled/multimodal_search http://t.cn/AXVNrwoS

发布于北京