量子位 25-10-16 14:29
微博认证:量子位官方微博

#豆包语音模型2.0##豆包让郭德纲学会发疯#

发疯文学的“疯”,终于是让AI给呐喊出来了。

例如电视剧《180天重启计划》中的这段发疯名场面:【图1】。

然后啊,我们让AI用于谦+郭德纲的腔调打开这段对话,画风是这样的:【图2】。

这要放以前,那些平平淡淡的AI语音,这癫感、这呐喊,大概率是发不出来的。

那为什么现在AI就可以做到了呢?

因为就在刚刚,火山引擎把豆包语音大模型升级了——

语音学会了思考,更能理解台词,情感表达更有张力。

具体来说,火山引擎这次主要升级了2个模型,分别是豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0)。

刚才的那段发疯对话片段的制作过程,就是先上传了郭德纲和于谦的音频,让豆包声音复刻模型2.0在短短几秒中的时间里复刻出声音:【图3】。

然后再在豆包语音合成模型2.0中,分别选择于谦和郭德纲的声音,并在台词的前面标注了一下想要达到的情绪效果:【图4】。

值得注意的是,上面这一步的操作,就是此次豆包语音合成模型2.0的一大关键点,分为三种模式【图5】:

- 默认模式:可以在台词前像我们刚才那样,添加细节描述内容;
- 语音指令:可以控制说话的情绪、方言、语气和语速等;
- 引入上文:把上文内容引进来,让AI更好地去理解完整内容。

所以整体来看,这次火山引擎是想让AI语音达到的效果,是要从“像人”走向“懂人”。

那么效果到底几何?老规矩,一波实测,走起~http://t.cn/AXzrymfz