量子位 25-07-24 16:42
微博认证:量子位官方微博

#字节发布同声传译模型##保留原声的AI实时翻译#

字节Seed团队发布了同声传译模型Seed LiveInterpret 2.0,【视频1】可以看到,该模型不仅低延迟,还支持音色克隆。

而【视频2】用一个轻巧幽默的故事,把AI如何真实地改变生活,讲得温暖又有趣:

一个外国游客到中国旅行,入住小镇客栈,却因为语言不通跟老板鸡同鸭讲,场面一度尴尬。

就在这时,老板灵机一动,拿出手机打开Seed LiveInterpret 2.0,一边说中文,一边同声传译英文,声音还保持了他本人的语调。几秒钟内,沟通顺畅无比,误会一扫而空。

这一切,正是通过打开AI翻译工具实现的——手机一开,跨语言沟通从此无压力。

再来说说LiveInterpret 2.0的技术亮点:

- 语音直出语音:不再依赖“语音转文本再合成语音”的传统路径,避免中间环节带来的误差累积。

- 3秒内响应:平均响应速度提升70%,更接近人类对话的节奏。

- 音色克隆(voice cloning):为当前少数支持保留原音色的实时传译方案之一。

- 强化学习优化:通过双重奖励机制进行训练,兼顾句子级别的翻译准确性和语义连贯性。

- 多轮对话处理能力:可应对复杂语境,包括不同说话人交替发言、语言自由切换等多种场景。

- 真实语境测试:

评估采用RealSI(Real-time Simultaneous Interpretation)基准,内容覆盖医疗、法律、科技等行业。

从评估图来看,Seed LiveInterpret 2.0不管是语音转文本(S2T),还是语音转语音(S2S),都做到了又快又准。

项目官网:seed.bytedance.com/zh/seed_liveinterpret