OpenAI 正在构建一个双向语音系统,该系统能够处理人为干扰而不会出现卡顿。
ChatGPT 目前的语音模式采用回合制,用户必须说完话后,AI 才会处理音频并生成回复。如果用户插话表示“好的”或“嗯哼”,模型会完全停止说话,而不是自然地继续下去。
这种名为双向语音(BiDi)的新模式专注于持续监听你的声音,以便在你中断说话时自动切换回复内容。这使得聊天体验比目前一旦开始说话就只能给出单一答案的系统更加人性化。
他们仍在修复实验性漏洞,这些漏洞会导致系统在长时间聊天期间发出奇怪的噪音。
这一点非常重要,因为同步音频处理对于数字助理成为真正有用的工具来说是必不可少的。
发布于 广东
