Google 在 Google AI Studio 中正式发布了Gemini 3.1 Flash Live 预览版。这不仅是模型的迭代,更是开发者构建实时语音与视觉智能体(Real-time Audio/Visual Agents)的关键里程碑。简单来说,这不只是一个更快的模型,而是一个能实时看、实时听、实时回的“数字大脑”预览版。开发者现在能用它构建那种完全不需要“转圈等待”的语音视觉智能体。
[话筒]GenJi 划重点:
抗噪能力提升:哪怕你在嘈杂的地铁站、或者家里开着电视,它也能精准过滤背景噪音,从乱糟糟的环境里抓取你的指令。
复杂指令的跟随能力大幅提升:即便你对话中途突然改主意(意料之外的转折),它也能稳稳接住。
比之前的版本更丝滑:能识别你的语气、重音和情绪,聊起天来不再像对讲机,而像真人。
相信在不远的将来,AI 不再是那个你发一段话、它回一段话的“聊天框”,而是能实时帮你处理电话、看实时监控并给出建议的 私人管家。目前该模型已通过 Gemini API 和 Google AI Studio 开放,建议关注实时交互与 Agent 开发的同学第一时间测试其边缘路由的表现。#GenJiAI观察室##谷歌Gemini#
🙋提问AI届最严厉的朋友们:你在日常生活中使用AI时遇到的最大困难或者bug是什么?
发布于 福建
