西里森森 26-03-03 12:36
微博认证:AI博主

我最近在帮朋友一起搞AI漫剧,碰到个特别头疼的问题。

因为像AI漫剧,有些内容涉及到多个角色对话,但找配音演员的话周期太长,而且成本比较高。

我有去市面上找过一些AI配音工具,但效果总感觉怪怪的,就是一听还是能听出来是AI。
虽然音色能模仿个大概,但没有情感起伏,听起来非常机械......

比如你让它模拟紧张,它只会把声音拔高一点,让它表达温柔,就是放慢语速。
但跟我想要的AI漫剧里角色呈现出来的音色,完全不是一个味儿。

我跟朋友归纳了一下,这些AI配音最本质的问题,就是只会照葫芦画瓢。你给它一段参考音频,它能学个七八成像,但它不会演戏。
想要它表现出角色具体的情绪、场景感,非常非常难。

但今天,我朋友很兴奋的转发给我一条消息,说阿里这两天发布了两款新的语音模型。
他第一时间就接入测了一下,效果非常棒!

我看了一下这这两款模型。
一个叫Fun-CosyVoice3.5,主打声音克隆加指令控制;
另一个叫Fun-AudioGen-VD,可以无中生有创造音色,还能叠加背景音效。

官方管这个能力叫freestyle模式,换句话说就是你能用文字指令告诉AI该怎么说话,用什么情绪,什么语速,甚至要不要加背景声。

看我朋友这么兴奋,我立马上阿里云百炼,花了一晚上时间测了一下效果,主要覆盖声音克隆、生僻字朗读、场景合成、角色创造这几个方向。

不得不说,效果真的可以!
我迫不及待来给大家分享一下我的实测效果🤩

Case 1:不给任何参考音频,让它凭空创造角色

这是我最想测的功能,因为传统AI配音最大的问题,就是不同角色要制作符合人设的配音,非常麻烦。

而凭空创造角色音频,也是Fun-AudioGen-VD最特别的地方,不需要参考音频,直接用文字描述就能生成音色。

比如我让三种不同的声音来说下面这段话:
对做AI漫剧、有声书、游戏配音的人来说,这个功能太实用了!以前你得准备好几个配音演员,现在一个音色就能搞定多个角色,省下的不只是钱,更重要的是效率。

第一个人设是普通旁白,第二个人设是一位老学者,第三个人设是疯狂反派🦹

模型生成的速度很快,每段大概十几秒就出来了。
我仔细听了三遍,发现它抓住了每个角色的核心特征。

三段音频放在一起听,完全不像是同一个人说的,情绪区分度非常明显!

作为一个没有任何参考音频、纯靠文字描述生成的音色,效果超出我预期了。
如果你只是需要一个大致的角色音色,而不是追求百分百逼真,这个已经够用了。

如果你是在项目前期,需要给客户或团队展示不同角色的声音效果,传统做法是要么找配音演员录样片,要么到音色库里一个个试。
现在你直接写几句描述就能出来,迭代速度快了好几倍。

Case 2:让它读一段美食节目文案,全是容易念错的食材名

我有个朋友在做美食类短视频,经常需要介绍各地特色菜。
她跟我吐槽说,AI配音最让人头疼的就是念食材名,特别是那些地方特色食材,十个有八个念错。

既然阿里说生僻字准确率提升了,我就专门拿这个场景来测一测。

我写了一段美食节目的开场白,里面塞满了容易读错的食材:
今天教大家做一道江南春笋烩鲥鱼。先把荸荠切片,薤白切段,春笋要选那种刚出土的鞭笋。配菜可以加点蕹菜,最后撒上切碎的芫荽提味。

我让模型直接合成,没做做任何标注。播放出来的时候,我边听边对照字典查。

鲥鱼,对了,念的是shí yú。荸荠,也对,bí qi。蕹菜念的wèng cài,芫荽念的yán sui,全都对。

整段话听下来,没有一个字翻车。而且它在念这些食材名的时候,语气还挺自然的。

我又试了几个其他的食材组合,像是鳎目鱼、莼菜、茭白、藠头这些,基本都能念对。
如果你是做美食类、文化类、或者任何需要大量专业术语的视频内容,这个功能真的能省不少事。

Case 3:深夜便利店结账,要有冰柜嗡嗡声和门铃声

这是测试Fun-AudioGen-VD的场景一体化能力。
传统做法是先生成人声,再单独加背景音效,还得注意音量平衡。

我想看看AI能不能直接把人声和环境声一起做出来,而且,得把场景的氛围做出来。

我的指令如下:
场景是凌晨两点的24小时便利店,很安静但不死寂。背景持续有冰柜低沉的嗡嗡声,偶尔能听到空调出风口的轻微风声,还有远处自动门感应到顾客时发出的叮咚提示音。
说话人是便利店店员,年轻女性,语气温和但带着深夜特有的疲惫感,说话轻声细语,不想打破这份安静。整体有种小空间的轻微混响,像是站在收银台前说话。
文本是:一共三十二块五。需要袋子吗?好的,刷这边就行。您慢走,路上注意安全。

这段生成时间稍微长一点,大概二十多秒。

我闭着眼睛听,脑子里能浮现出那个画面:深夜的便利店,昏黄的灯光,店员靠在收银台后面,有点困但还在坚持营业。

但也有不够完美的地方,冰柜声虽然真实,但层次感还是单薄了点。真实的便利店会有好几台冰柜,声音是有远近、大小区别的。

以前做一期播客,如果想要一个特定场景的氛围音,要么自己去现场录,要么去音效库翻半天,找到了还得调整音量、做混响处理。
现在我直接写几句描述,十分钟就能生成一段可用的素材。

更重要的是,它让我可以去尝试更多的场景创意。
只要有想法,就可以先用AI快速生成一个版本,听听效果如何。

测完这几个case,我得说,AI配音的能力边界确实在往前推。

现在,你告诉它该用什么情绪、什么语速、什么场景,它能按照你的要求去合成,而且质量比以前好太多了!
生僻字能读准,多种情绪能区分,甚至能做场景一体化的效果。

如果你正好在做音频内容、配音相关的工作,可以去阿里云百炼试试这两个模型。
把它当成一个新工具,看看能不能真的提升你的工作效率~

发布于 上海