世事宜AI
26-06-10 18:08

Google DeepMind 发布实时
Google DeepMind 刚刚推出了 Gemini 3.5 Live Translate,一个全新的音频模型,能实现接近实时的语音到语音翻译,覆盖超过70种语言。

它的核心亮点是“流式翻译”。过去的翻译系统通常要等一句话说完才开始翻译,而 Gemini 3.5 会一边听一边生成翻译语音,只比说话的人慢几秒,几乎没有尴尬的停顿。而且它能自动检测语言,无需手动切换;翻译出的语音还会保留原说话人的语调、节奏和音高,听起来很自然。

今天起,这套能力已经开始在多个 Google 产品中上线:开发者可以通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业用户本月起可以在 Google Meet 中体验私有预览版;普通用户则可以在 Android 和 iOS 的 Google Translate 应用里直接用上。

个人觉得,这次最大的变化是“流畅感”——不再是一句一停的机器翻译,更像同声传译,这对会议、直播、跨国沟通的场景价值很大。
#世事宜AI##AI前沿##AI快讯#

发布于 美国