#字节发布同声传译模型##保留原声的AI实时翻译#
字节Seed团队发布了同声传译模型Seed LiveInterpret 2.0,【视频1】可以看到,该模型不仅低延迟,还支持音色克隆。
而【视频2】用一个轻巧幽默的故事,把AI如何真实地改变生活,讲得温暖又有趣:
一个外国游客到中国旅行,入住小镇客栈,却因为语言不通跟老板鸡同鸭讲,场面一度尴尬。
就在这时,老板灵机一动,拿出手机打开Seed LiveInterpret 2.0,一边说中文,一边同声传译英文,声音还保持了他本人的语调。几秒钟内,沟通顺畅无比,误会一扫而空。
这一切,正是通过打开AI翻译工具实现的——手机一开,跨语言沟通从此无压力。
再来说说LiveInterpret 2.0的技术亮点:
- 语音直出语音:不再依赖“语音转文本再合成语音”的传统路径,避免中间环节带来的误差累积。
- 3秒内响应:平均响应速度提升70%,更接近人类对话的节奏。
- 音色克隆(voice cloning):为当前少数支持保留原音色的实时传译方案之一。
- 强化学习优化:通过双重奖励机制进行训练,兼顾句子级别的翻译准确性和语义连贯性。
- 多轮对话处理能力:可应对复杂语境,包括不同说话人交替发言、语言自由切换等多种场景。
- 真实语境测试:
评估采用RealSI(Real-time Simultaneous Interpretation)基准,内容覆盖医疗、法律、科技等行业。
从评估图来看,Seed LiveInterpret 2.0不管是语音转文本(S2T),还是语音转语音(S2S),都做到了又快又准。
项目官网:seed.bytedance.com/zh/seed_liveinterpret
