OpenAI研发双向语音模型

OpenAI正在研发一种全新的语音模型，旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于，当用户在AI说话过程中打断系统时，AI能够实时调整回应，而不是像现在这样突然停止。

目前ChatGPT的高级语音模式采用的是回合式对话机制，用户必须先说完话，AI才会处理语音并生成回答。如果用户在AI发言时插入"okay"或"mm-hm"等简短回应，系统通常会直接停止，无法像正常对话那样继续推进交流。

为解决这一问题，OpenAI正在开发的BiDi（双向语音模型）能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有的语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。

这项技术目前仍处于开发阶段。据知情人士透露，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的声音。OpenAI研究人员原本希望今年第一季度发布BiDi，但目前最新的发布时间可能推迟到第二季度或更晚。

发布于四川