#火山引擎发布豆包音频生成模型1.0#火山引擎昨日推出豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），新增多模态参考生成能力，长音频创作时能稳定维持多角色音色统一，大幅降低后期修音工作量。该模型仅靠一条提示词，就能一次性编排人物台词、情绪、配乐与环境音效，直接产出完整叙事音频，打破过

#火山引擎发布豆包音频生成模型1.0#火山引擎昨日推出豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），新增多模态参考生成能力，长音频创作时能稳定维持多角色音色统一，大幅降低后期修音工作量。

该模型仅靠一条提示词，就能一次性编排人物台词、情绪、配乐与环境音效，直接产出完整叙事音频，打破过去人声、音效、配乐分开制作再剪辑合成的传统流程。

目前火山方舟开放该模型 API 邀测，个人用户能在体验中心免费试用，拥有 30 分钟创作额度；后续还会登陆剪映、即梦、番茄等平台，面向广大音频创作者开放。

这款模型可实现影视级一站式音频创作，省去多轨对齐、混音剪辑等繁琐后期操作：

支持一次性设定多名角色台词、情绪节奏，各角色音色不混乱；
可直接生成叹息、笑声、方言、停顿等各类非语言细节，对话更自然；
人声、背景音乐、环境音效同步生成，输出成品无需二次混编。
创作者输入文字描述，就能产出可直接使用的播客、有声剧、品牌音频，工具模式升级为全能音频创作工具。

针对长音频音色割裂痛点，模型打通文生音与参考音频能力，单次最长生成 2 分钟音频，多次延展内容依旧保持音色统一，不用分段校对修音，适配有声书、长剧集、播客等长线创作场景。

模型支持文本、参考音频双模态输入，零样本即可端到端生成音频，降低创作门槛；同时实现音色、风格分离调控，同款音色可切换多种情绪语境，还具备一声多角功能，单一声线演绎不同角色，大幅提升配音创作灵活度。

发布于陕西