AIGCLINK
26-05-08 07:57 微博认证:AI博主

OpenAI刚刚放出来了三款实时语音模型,让语音助手变成了能听能想、能同传、能记录、能干活的全能选手

$0.034/分钟的实时翻译,比人工同传便宜太多了

或许会促使交互范式发生转变,当语音足够好用,很多场景无需再用App界面了,说话可能就变成了默认功能

GPT-Realtime-2:带推理能力的实时语音对话,能边聊边想、边查资料、边执行任务,语音版GPT-5,上下文窗口128K,在Big Bench Audio上high模式比1.5版高15.2%

GPT-Realtime-Translate:实时同传,你说中文,对方听到的是英文,支持70+种输入语言转13种输出语言,可以边听边译并实时显示转录文本

GPT-Realtime-Whisper: 流式语音转文字,边说边出字幕,低延迟,可以用于会议字幕、课堂笔记、客服跟进等

GPT-Realtime-2,输入$32/百万token(缓存$0.4),输出$64/百万token
翻译:$0.034/分钟
转录:$0.017/分钟

博客:http://t.cn/AXJ1PK4H

#AI语音模型##GPTRealtime2##AI同传##openai语音模型#

发布于 山西