字节发布豆包音频模型

字节发布了一个豆包音频生成模型 Seed Audio 1.0，我看评测很厉害，有博主认为这是"声音模型的 Seedance 时刻"。

为什么这么说呢？因为以前我们接触到的声音模型，基本上都是 TTS，也就是文本转语音。你给它一段文字，它帮你念出来，本质上就是一个朗读机器，没什么智能可言。但 Seed Audio 完全不同，它可以根据你的描述和想象，生成各种各样的声音，人声、音乐、音效、环境音都能搞定，而且那些很微妙的情绪和细节，它也能表现出来。

这个模型单次能生成长达两分钟的音频，还能以此为基础继续延长，保持音色和风格一致，最长可以做到几十分钟。这意味着你可以用它来创造属于自己的 AI 声音伙伴，陪你聊天、讲故事、唱歌都行。

当然，作为一个 1.0 版本的新模型，它还有一些不完美的地方。比如同一个参考声音在不同场景下的表现还不够稳定，唱歌时跑调有点严重，有时候人声还带着一点电音感。但整体来看，这已经是声音生成领域一个非常大的突破了。

#How I AI##科技先锋官#

发布于山东