何漫游Alex
26-06-16 16:35 微博认证:幽默搞笑达人 AI博主

实时语音AI有一个不太直观的门槛:听和说是同一条流水线上的两件事,但大部分公司只擅长其中一边。

Cartesia今天同时更新了两个模型,我给大伙推荐一下。Ink 2,语音转文字,在流式榜单排第一。Sonic 3.5,文字转语音,实时榜也排第一。首音频延迟82毫秒,基本等于你话音刚落AI就开始回应。他们是目前唯一同时拿下听和说两侧榜首的公司。

以前做语音产品的思路是:语音识别用A公司的API,语音合成用B公司的API,中间接自己的对话模型。三套系统各自独立优化,最终延迟是三者之和。当同一条流水线的两端由一个人来调时,中间层可以被压缩得很薄——不是把每个环节压到极致,而是让三个环节之间没有冗余。

发布于 四川