默庵·超级个体
26-06-23 13:07 微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

字节发布了一个豆包音频生成模型 Seed Audio 1.0,我看评测很厉害,有博主认为这是"声音模型的 Seedance 时刻"。

为什么这么说呢?因为以前我们接触到的声音模型,基本上都是 TTS,也就是文本转语音。你给它一段文字,它帮你念出来,本质上就是一个朗读机器,没什么智能可言。但 Seed Audio 完全不同,它可以根据你的描述和想象,生成各种各样的声音,人声、音乐、音效、环境音都能搞定,而且那些很微妙的情绪和细节,它也能表现出来。

这个模型单次能生成长达两分钟的音频,还能以此为基础继续延长,保持音色和风格一致,最长可以做到几十分钟。这意味着你可以用它来创造属于自己的 AI 声音伙伴,陪你聊天、讲故事、唱歌都行。

当然,作为一个 1.0 版本的新模型,它还有一些不完美的地方。比如同一个参考声音在不同场景下的表现还不够稳定,唱歌时跑调有点严重,有时候人声还带着一点电音感。但整体来看,这已经是声音生成领域一个非常大的突破了。

#How I AI##科技先锋官#

发布于 山东