爱可可-爱生活 24-04-10 08:09
微博认证:AI博主 2025微博新锐新知博主

【Gemini 1.5 Pro发布:原生音频理解、100万token上下文窗口、强大API】
- Gemini 1.5 Pro 模型已在180多个国家/地区通过 Gemini API 公开预览,增加了音频理解能力。
- Gemini 1.5 Pro 现在可以同时理解视频中的图像和音频,Google AI Studio 中已支持,API 即将推出。
- Gemini API 添加了系统指令功能,可以指导模型的响应;增加了 JSON 模式,可以只输出 JSON 对象。
- Gemini API 改进了函数调用,可以选择限制模型的输出,提高可靠性。
- 推出了新一代文本嵌入模型,在类似维度下表现优于现有模型,可通过 Gemini API 使用。
- Google AI Studio 和 Gemini API 是构建基于 Gemini 的项目的最简单途径。开发者可以在 Studio 中访问 Gemini 1.5 Pro,参考 Gemini API Cookbook 的代码示例,并加入 Discord 社区。

思考:
- Gemini 1.5 Pro 的 100 万 token 上下文窗口非常惊人,这为开发者提供了巨大的创新空间。
- 原生音频理解和跨模态推理(图像+音频)功能的加入,大大拓宽了 Gemini 1.5 Pro 的应用场景。这使得开发者能够创建更加智能、交互性更强的应用。
- 新的文本嵌入模型 text-embedding-004 在标准基准测试中展现出优异的性能,这对于需要高质量文本表示的任务(如语义搜索、文本聚类等)非常有帮助。
《Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers》 http://t.cn/A6TKwekN #机器学习# #人工智能#

发布于 北京