谷歌新的 Gemini TTS 模型太牛逼了!
直接可以通过提示词去控制说话人的性别、语调、语气、某个词的读音、年龄。
你能想到的都能控制,根本不需要切换单独的语音模型!
我的 AI 互动漫剧应用终于是完全体了!
使用Nano Banana Pro动态地生成每个场景的图片,以及新的TTS生成每角色的独特的语音。#ai创造营#
就是说中文的时候,依然有一些老问题,就是有些外国口音。
但是比以前的TTS说中文要好多了。希望他们能把普通话这个诡异的音调问题修复一下。 http://t.cn/AXU7QUMP
发布于 北京
