量子位 25-07-30 13:01
微博认证:量子位官方微博

#豆包同传模型延迟仅2秒##豆包同传能保留说话人音色#

刚刚,火山引擎总裁谭待介绍了豆包同传模型2.0版本的升级内容,本次升级针对“延迟高”、“声音不自然”两大痛点做了优化,而且翻译内容还能保留说话者音色。

谭待提到,去年豆包1.0模型上线时,随着使用场景复杂化,暴露出两个挑战:

- 延迟问题:1.0延迟在6-8秒之间,影响实际交流;

- 声音复刻:翻译输出的声音是机械化音色,缺少演讲者个性和真实感。

而新一代2.0模型,支持端到端的语音理解和生成,能做到“边听边说”,实现全双工语音同传。

具体来说,2.0版本带来了几个显著能力:

- 延迟从行业普遍的6-8秒,降低到2秒左右,已经接近“同步对话”的水平;

- 输出声音可复刻说话者音色,甚至模拟方言口音;

- 支持多语言跨语种对话的无缝衔接,更贴近真实交流。

随着同声传译技术的成熟,未来国际会议都可能实现零障碍实时交流,让语言不再是全球化沟通的阻力。对企业来说,也意味着跨国沟通和业务协作效率的大幅提升。