OpenAI发布实时语音模型

OpenAI 今日正式发布三款实时语音模型，分别针对推理、翻译和转录场景，均集成在 Realtime API 中供开发者调用，核心解决语音交互里的延迟、打断处理与多语言支持痛点。

GPT-Realtime-2 是 OpenAI 目前最智能的 AI 语音模型，也是首款具备 GPT-5 级推理能力的语音模型，可在流畅对话中完成推理、工具调用，还能处理用户的打断与纠正，方便开发者打造可执行多步骤任务的复杂语音助手。

GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言，翻译速度与说话者同步，适合跨国会议等实时沟通场景。

GPT-Realtime-Whisper 专注低延迟流式转录，可实现音频随说随转，适配实时字幕、会议记录需求。

定价上，GPT-Realtime-2 按 Token 计费，音频输入每百万 Token 32 美元，输出 64 美元，缓存输入仅 0.4 美元；翻译、转录模型按分钟计费，每分钟分别为 0.034 美元、0.017 美元。

发布于湖北