OpenAI上新三款实时语音模型,不仅集成了GPT-5级的推理能力,还重击了一拳同传行业:
能紧跟发言人节奏的同声传译,现在每分钟成本两毛五。
三款模型分别是GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper,把端到端推理语音、同声传译、流式转写三件事打包进了同一套API。
三款模型,三个定位:
GPT-Realtime-2:带着GPT-5级推理说人话办人事;
GPT-Realtime-Translate:能把70多种语言实时翻译成13种语言输出,每分钟约2毛5。
GPT-Realtime-Whisper:负责边说话边出文字的低延迟转录。
官方表示,语音正逐渐成为人们使用软件最自然的方式之一。这三款模型一起,把语音从简单的听话回话,推向了真正「能干活的交互界面」——
这下,大模型真的能像人类一样,跟你边聊天边把活干了。
http://t.cn/AXJrq29m
