阿里发布AI语音新模型

我最近在帮朋友一起搞AI漫剧，碰到个特别头疼的问题。

因为像AI漫剧，有些内容涉及到多个角色对话，但找配音演员的话周期太长，而且成本比较高。

我有去市面上找过一些AI配音工具，但效果总感觉怪怪的，就是一听还是能听出来是AI。
虽然音色能模仿个大概，但没有情感起伏，听起来非常机械......

比如你让它模拟紧张，它只会把声音拔高一点，让它表达温柔，就是放慢语速。
但跟我想要的AI漫剧里角色呈现出来的音色，完全不是一个味儿。

我跟朋友归纳了一下，这些AI配音最本质的问题，就是只会照葫芦画瓢。你给它一段参考音频，它能学个七八成像，但它不会演戏。
想要它表现出角色具体的情绪、场景感，非常非常难。

但今天，我朋友很兴奋的转发给我一条消息，说阿里这两天发布了两款新的语音模型。
他第一时间就接入测了一下，效果非常棒！

我看了一下这这两款模型。
一个叫Fun-CosyVoice3.5，主打声音克隆加指令控制；
另一个叫Fun-AudioGen-VD，可以无中生有创造音色，还能叠加背景音效。

官方管这个能力叫freestyle模式，换句话说就是你能用文字指令告诉AI该怎么说话，用什么情绪，什么语速，甚至要不要加背景声。

看我朋友这么兴奋，我立马上阿里云百炼，花了一晚上时间测了一下效果，主要覆盖声音克隆、生僻字朗读、场景合成、角色创造这几个方向。

不得不说，效果真的可以！
我迫不及待来给大家分享一下我的实测效果🤩

Case 1：不给任何参考音频，让它凭空创造角色

这是我最想测的功能，因为传统AI配音最大的问题，就是不同角色要制作符合人设的配音，非常麻烦。

而凭空创造角色音频，也是Fun-AudioGen-VD最特别的地方，不需要参考音频，直接用文字描述就能生成音色。

比如我让三种不同的声音来说下面这段话：
对做AI漫剧、有声书、游戏配音的人来说，这个功能太实用了！以前你得准备好几个配音演员，现在一个音色就能搞定多个角色，省下的不只是钱，更重要的是效率。

第一个人设是普通旁白，第二个人设是一位老学者，第三个人设是疯狂反派🦹

模型生成的速度很快，每段大概十几秒就出来了。
我仔细听了三遍，发现它抓住了每个角色的核心特征。

三段音频放在一起听，完全不像是同一个人说的，情绪区分度非常明显！

作为一个没有任何参考音频、纯靠文字描述生成的音色，效果超出我预期了。
如果你只是需要一个大致的角色音色，而不是追求百分百逼真，这个已经够用了。

如果你是在项目前期，需要给客户或团队展示不同角色的声音效果，传统做法是要么找配音演员录样片，要么到音色库里一个个试。
现在你直接写几句描述就能出来，迭代速度快了好几倍。

Case 2：让它读一段美食节目文案，全是容易念错的食材名

我有个朋友在做美食类短视频，经常需要介绍各地特色菜。
她跟我吐槽说，AI配音最让人头疼的就是念食材名，特别是那些地方特色食材，十个有八个念错。

既然阿里说生僻字准确率提升了，我就专门拿这个场景来测一测。

我写了一段美食节目的开场白，里面塞满了容易读错的食材：
今天教大家做一道江南春笋烩鲥鱼。先把荸荠切片，薤白切段，春笋要选那种刚出土的鞭笋。配菜可以加点蕹菜，最后撒上切碎的芫荽提味。

我让模型直接合成，没做做任何标注。播放出来的时候，我边听边对照字典查。

鲥鱼，对了，念的是shí yú。荸荠，也对，bí qi。蕹菜念的wèng cài，芫荽念的yán sui，全都对。

整段话听下来，没有一个字翻车。而且它在念这些食材名的时候，语气还挺自然的。

我又试了几个其他的食材组合，像是鳎目鱼、莼菜、茭白、藠头这些，基本都能念对。
如果你是做美食类、文化类、或者任何需要大量专业术语的视频内容，这个功能真的能省不少事。

Case 3：深夜便利店结账，要有冰柜嗡嗡声和门铃声

这是测试Fun-AudioGen-VD的场景一体化能力。
传统做法是先生成人声，再单独加背景音效，还得注意音量平衡。

我想看看AI能不能直接把人声和环境声一起做出来，而且，得把场景的氛围做出来。

我的指令如下：
场景是凌晨两点的24小时便利店，很安静但不死寂。背景持续有冰柜低沉的嗡嗡声，偶尔能听到空调出风口的轻微风声，还有远处自动门感应到顾客时发出的叮咚提示音。
说话人是便利店店员，年轻女性，语气温和但带着深夜特有的疲惫感，说话轻声细语，不想打破这份安静。整体有种小空间的轻微混响，像是站在收银台前说话。
文本是：一共三十二块五。需要袋子吗？好的，刷这边就行。您慢走，路上注意安全。

这段生成时间稍微长一点，大概二十多秒。

我闭着眼睛听，脑子里能浮现出那个画面：深夜的便利店，昏黄的灯光，店员靠在收银台后面，有点困但还在坚持营业。

但也有不够完美的地方，冰柜声虽然真实，但层次感还是单薄了点。真实的便利店会有好几台冰柜，声音是有远近、大小区别的。

以前做一期播客，如果想要一个特定场景的氛围音，要么自己去现场录，要么去音效库翻半天，找到了还得调整音量、做混响处理。
现在我直接写几句描述，十分钟就能生成一段可用的素材。

更重要的是，它让我可以去尝试更多的场景创意。
只要有想法，就可以先用AI快速生成一个版本，听听效果如何。

测完这几个case，我得说，AI配音的能力边界确实在往前推。

现在，你告诉它该用什么情绪、什么语速、什么场景，它能按照你的要求去合成，而且质量比以前好太多了！
生僻字能读准，多种情绪能区分，甚至能做场景一体化的效果。

如果你正好在做音频内容、配音相关的工作，可以去阿里云百炼试试这两个模型。
把它当成一个新工具，看看能不能真的提升你的工作效率～

发布于上海