OpenAI发布实时语音模型

OpenAI刚刚放出来了三款实时语音模型，让语音助手变成了能听能想、能同传、能记录、能干活的全能选手

$0.034/分钟的实时翻译，比人工同传便宜太多了

或许会促使交互范式发生转变，当语音足够好用，很多场景无需再用App界面了，说话可能就变成了默认功能

GPT-Realtime-2：带推理能力的实时语音对话，能边聊边想、边查资料、边执行任务，语音版GPT-5，上下文窗口128K，在Big Bench Audio上high模式比1.5版高15.2%

GPT-Realtime-Translate：实时同传，你说中文，对方听到的是英文，支持70+种输入语言转13种输出语言，可以边听边译并实时显示转录文本

GPT-Realtime-Whisper：流式语音转文字，边说边出字幕，低延迟，可以用于会议字幕、课堂笔记、客服跟进等

GPT-Realtime-2，输入$32/百万token（缓存$0.4），输出$64/百万token
翻译：$0.034/分钟
转录：$0.017/分钟

博客：http://t.cn/AXJ1PK4H

#AI语音模型##GPTRealtime2##AI同传##openai语音模型#

发布于山西