OpenAI 今日正式发布三款实时语音模型,分别针对推理、翻译和转录场景,均集成在 Realtime API 中供开发者调用,核心解决语音交互里的延迟、打断处理与多语言支持痛点。
GPT-Realtime-2 是 OpenAI 目前最智能的 AI 语音模型,也是首款具备 GPT-5 级推理能力的语音模型,可在流畅对话中完成推理、工具调用,还能处理用户的打断与纠正,方便开发者打造可执行多步骤任务的复杂语音助手。
GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适合跨国会议等实时沟通场景。
GPT-Realtime-Whisper 专注低延迟流式转录,可实现音频随说随转,适配实时字幕、会议记录需求。
定价上,GPT-Realtime-2 按 Token 计费,音频输入每百万 Token 32 美元,输出 64 美元,缓存输入仅 0.4 美元;翻译、转录模型按分钟计费,每分钟分别为 0.034 美元、0.017 美元。
发布于 湖北
