量子位
25-09-01 12:11 微博认证:量子位官方微博

#OpenAI发布语音对话模型##OpenAI语音对话模型延迟超低#

OpenAI发布了最强语音对话模型gpt-realtime,该模型不仅对话延迟低,语气和情绪也更加自然。

API现已开放,想打造客服、教育、语音助手等语音AI体验的开发者可以试试。

发布会上,OpenAI现场展示了这样一个场景:用户说,自己女儿把手机掉进湖里了,急需换机。AI立刻用温和的语气回应“哦不,真遗憾,我们来尽快帮你解决”,并主动询问是否需要防水性能更强的机型。

用户说“预算在300美元以内”,AI马上推荐了几款符合条件的手机,还贴心提醒“这款支持T-Mobile卫星短信服务,包括紧急求救”。

随后用户追问:“我这个套餐用得上吗?要额外收费吗?”AI则准确识别出用户当前套餐内容,回应说“你现在的体验无界套餐已包含该服务,无需额外付费”。

最后,在用户拍下家中玩具地上的照片发送过去后,AI不仅准确描述了“小朋友踩在独角兽玩具上看窗外”,还提醒说“这个姿势可能有点危险,建议扶她下来更安全”。

从情绪理解、信息获取到图像识别,AI助手全程语气自然、回应灵活,展现了人类客服般的理解力与亲和力。整段对话几乎没有迟滞,真正做到了“听得懂、说得出、看得见”。

与以往的“语音转文字,然后再文字转语音”的方案不同,gpt-realtime采用端到端的方式直接处理音频输入,并生成音频输出,减少延迟的同时,还能保留语音中的细节和情绪。

gpt-realtime具有这些特点:

- 语音质量更自然:能做到“模拟生气、悲伤、惊喜”、“中英文混说”这种难度的对话,还新增了两个全新音色Cedar和Marin。

- 指令执行更精准:模型能理解复杂指令,如“快速专业地说”或“用法语口音温柔地表达”。

- 工具调用更智能:在调用第三方函数方面更准确,对接企业系统也更稳。

- 视觉理解加入:现在可配合图片使用,gpt-realtime不仅能听,也能识别照片、解读截图内容。

- 支持打电话:通过SIP协议,gpt-realtime可以打进/接通电话系统,用于客服场景更自然。

- 会记住上下文:新增可复用Prompt能力,支持跨会话复用指令和样例,提高开发效率。

性能方面:

- 在语音理解基准Big Bench Audio上准确率达82.8%(上一代为65.6%)

- 多轮复杂指令任务准确率30.5%(上一代20.6%)

- 函数调用准确率66.5%(上一代49.7%) http://t.cn/AXPZPcqr