OpenAI刚刚放出来了三款实时语音模型,让语音助手变成了能听能想、能同传、能记录、能干活的全能选手
$0.034/分钟的实时翻译,比人工同传便宜太多了
或许会促使交互范式发生转变,当语音足够好用,很多场景无需再用App界面了,说话可能就变成了默认功能
GPT-Realtime-2:带推理能力的实时语音对话,能边聊边想、边查资料、边执行任务,语音版GPT-5,上下文窗口128K,在Big Bench Audio上high模式比1.5版高15.2%
GPT-Realtime-Translate:实时同传,你说中文,对方听到的是英文,支持70+种输入语言转13种输出语言,可以边听边译并实时显示转录文本
GPT-Realtime-Whisper: 流式语音转文字,边说边出字幕,低延迟,可以用于会议字幕、课堂笔记、客服跟进等
GPT-Realtime-2,输入$32/百万token(缓存$0.4),输出$64/百万token
翻译:$0.034/分钟
转录:$0.017/分钟
博客:http://t.cn/AXJ1PK4H
#AI语音模型##GPTRealtime2##AI同传##openai语音模型#
发布于 山西
