#OpenAI发布语音对话模型##OpenAI语音对话模型延迟超低#OpenAI发布了最强语音对话模型gpt-realtime，该模型不仅对话延迟低，语气和情绪也更加自然。API现已开放，想打造客服、教育、语音助手等语音AI体验的开发者可以试试。发布会上，OpenAI现场展示了这样一个场景：用户说，自己女儿把手机掉进

#OpenAI发布语音对话模型##OpenAI语音对话模型延迟超低#

OpenAI发布了最强语音对话模型gpt-realtime，该模型不仅对话延迟低，语气和情绪也更加自然。

API现已开放，想打造客服、教育、语音助手等语音AI体验的开发者可以试试。

发布会上，OpenAI现场展示了这样一个场景：用户说，自己女儿把手机掉进湖里了，急需换机。AI立刻用温和的语气回应“哦不，真遗憾，我们来尽快帮你解决”，并主动询问是否需要防水性能更强的机型。

用户说“预算在300美元以内”，AI马上推荐了几款符合条件的手机，还贴心提醒“这款支持T-Mobile卫星短信服务，包括紧急求救”。

随后用户追问：“我这个套餐用得上吗？要额外收费吗？”AI则准确识别出用户当前套餐内容，回应说“你现在的体验无界套餐已包含该服务，无需额外付费”。

最后，在用户拍下家中玩具地上的照片发送过去后，AI不仅准确描述了“小朋友踩在独角兽玩具上看窗外”，还提醒说“这个姿势可能有点危险，建议扶她下来更安全”。

从情绪理解、信息获取到图像识别，AI助手全程语气自然、回应灵活，展现了人类客服般的理解力与亲和力。整段对话几乎没有迟滞，真正做到了“听得懂、说得出、看得见”。

与以往的“语音转文字，然后再文字转语音”的方案不同，gpt-realtime采用端到端的方式直接处理音频输入，并生成音频输出，减少延迟的同时，还能保留语音中的细节和情绪。

gpt-realtime具有这些特点：

- 语音质量更自然：能做到“模拟生气、悲伤、惊喜”、“中英文混说”这种难度的对话，还新增了两个全新音色Cedar和Marin。

- 指令执行更精准：模型能理解复杂指令，如“快速专业地说”或“用法语口音温柔地表达”。

- 工具调用更智能：在调用第三方函数方面更准确，对接企业系统也更稳。

- 视觉理解加入：现在可配合图片使用，gpt-realtime不仅能听，也能识别照片、解读截图内容。

- 支持打电话：通过SIP协议，gpt-realtime可以打进/接通电话系统，用于客服场景更自然。

- 会记住上下文：新增可复用Prompt能力，支持跨会话复用指令和样例，提高开发效率。

性能方面：

- 在语音理解基准Big Bench Audio上准确率达82.8%（上一代为65.6%）

- 多轮复杂指令任务准确率30.5%（上一代20.6%）

- 函数调用准确率66.5%（上一代49.7%） http://t.cn/AXPZPcqr