#火山引擎发布豆包音频生成模型1.0#火山引擎昨日推出豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),新增多模态参考生成能力,长音频创作时能稳定维持多角色音色统一,大幅降低后期修音工作量。
该模型仅靠一条提示词,就能一次性编排人物台词、情绪、配乐与环境音效,直接产出完整叙事音频,打破过去人声、音效、配乐分开制作再剪辑合成的传统流程。
目前火山方舟开放该模型 API 邀测,个人用户能在体验中心免费试用,拥有 30 分钟创作额度;后续还会登陆剪映、即梦、番茄等平台,面向广大音频创作者开放。
这款模型可实现影视级一站式音频创作,省去多轨对齐、混音剪辑等繁琐后期操作:
支持一次性设定多名角色台词、情绪节奏,各角色音色不混乱;
可直接生成叹息、笑声、方言、停顿等各类非语言细节,对话更自然;
人声、背景音乐、环境音效同步生成,输出成品无需二次混编。
创作者输入文字描述,就能产出可直接使用的播客、有声剧、品牌音频,工具模式升级为全能音频创作工具。
针对长音频音色割裂痛点,模型打通文生音与参考音频能力,单次最长生成 2 分钟音频,多次延展内容依旧保持音色统一,不用分段校对修音,适配有声书、长剧集、播客等长线创作场景。
模型支持文本、参考音频双模态输入,零样本即可端到端生成音频,降低创作门槛;同时实现音色、风格分离调控,同款音色可切换多种情绪语境,还具备一声多角功能,单一声线演绎不同角色,大幅提升配音创作灵活度。
发布于 陕西
