【Gemini 1.5 Pro发布：原生音频理解、100万token上下文窗口、强大API】- Gemini 1.5 Pro 模型已在180多个国家/地区通过 Gemini API 公开预览，增加了音频理解能力。 - Gemini 1.5 Pro 现在可以同时理解视频中的图像和音频，Google AI Studio 中已支持，API 即将推出。

【Gemini 1.5 Pro发布：原生音频理解、100万token上下文窗口、强大API】
- Gemini 1.5 Pro 模型已在180多个国家/地区通过 Gemini API 公开预览，增加了音频理解能力。
- Gemini 1.5 Pro 现在可以同时理解视频中的图像和音频，Google AI Studio 中已支持，API 即将推出。
- Gemini API 添加了系统指令功能，可以指导模型的响应；增加了 JSON 模式，可以只输出 JSON 对象。
- Gemini API 改进了函数调用，可以选择限制模型的输出，提高可靠性。
- 推出了新一代文本嵌入模型，在类似维度下表现优于现有模型，可通过 Gemini API 使用。
- Google AI Studio 和 Gemini API 是构建基于 Gemini 的项目的最简单途径。开发者可以在 Studio 中访问 Gemini 1.5 Pro，参考 Gemini API Cookbook 的代码示例，并加入 Discord 社区。

思考：
- Gemini 1.5 Pro 的 100 万 token 上下文窗口非常惊人，这为开发者提供了巨大的创新空间。
- 原生音频理解和跨模态推理(图像+音频)功能的加入，大大拓宽了 Gemini 1.5 Pro 的应用场景。这使得开发者能够创建更加智能、交互性更强的应用。
- 新的文本嵌入模型 text-embedding-004 在标准基准测试中展现出优异的性能，这对于需要高质量文本表示的任务(如语义搜索、文本聚类等)非常有帮助。
《Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers》 http://t.cn/A6TKwekN #机器学习# #人工智能#

发布于北京