i陆三金 26-03-11 12:10
微博认证:AI博主

谷歌昨晚发的这个嵌入模型真的赞,Gemini Embedding 2(gemini-embedding-2-preview),谷歌首个多模态嵌入模型,它将文本、图片、视频、音频和文档映射到统一的嵌入空间中,从而能够以 100 多种语言进行跨模态搜索、分类和聚类。

文本:最多支持 8,192 个 token
Image:每个请求最多可包含 6 张图片。支持的格式:PNG、JPEG
音频:时长上限为 80 秒。支持的格式:MP3、WAV
视频:时长上限为 128 秒。支持的格式:MP4、MOV,支持的编解码器:H264、H265、AV1、VP9
- 文档 (PDF):最多 6 页

对于纯文本用例,原来的 gemini-embedding-001 仍然可用。不过要注意,gemini-embedding-001 和 gemini-embedding-2-preview 之间的嵌入空间不兼容。

文档:ai.google.dev/gemini-api/docs/embeddings
在谷歌 AI Studio 里面可以体验:aistudio.google.com/apps/bundled/multimodal_search http://t.cn/AXVNrwoS

发布于 北京