谷歌用Gemini实现了苹果说的“耳机同声传译”功能。这段demo里看着是无延迟的实时翻译,而且能模拟说话人的语气进行高质量同传。目前支持70多种语言。
如果真能达到视频里呈现的效果,那这真的可以打碎“巴别塔”,实现全人类无障碍交流。对绝大多数人来说,以后学外语就不再是必要,而是一种爱好了(小绿鸟瑟瑟发抖)。
官方的视频demo说明如下:
「我们对 Gemini Audio 的型号和功能进行了一些更新:
— Gemini 的实时语音翻译功能正在 Google 翻译应用中以测试版的形式推出,为您带来能够捕捉人类语音细微差别的实时音频翻译。
— Gemini 2.5 Flash 和 2.5 Pro 文本转语音预览版在风格提示的遵循度、基于上下文的精准语速调整以及多说话人场景下的角色语音一致性方面均有所提升。
— Gemini 2.5 Flash Native Audio 现已更新,改进了对复杂工作流程的处理、用户指令的导航以及自然对话的呈现」 http://t.cn/AXUwZjsw
发布于 日本
