Cartesia更新语音模型

实时语音AI有一个不太直观的门槛：听和说是同一条流水线上的两件事，但大部分公司只擅长其中一边。

Cartesia今天同时更新了两个模型，我给大伙推荐一下。Ink 2，语音转文字，在流式榜单排第一。Sonic 3.5，文字转语音，实时榜也排第一。首音频延迟82毫秒，基本等于你话音刚落AI就开始回应。他们是目前唯一同时拿下听和说两侧榜首的公司。

以前做语音产品的思路是：语音识别用A公司的API，语音合成用B公司的API，中间接自己的对话模型。三套系统各自独立优化，最终延迟是三者之和。当同一条流水线的两端由一个人来调时，中间层可以被压缩得很薄——不是把每个环节压到极致，而是让三个环节之间没有冗余。

发布于四川