莫说闲话-莫大
26-05-08 16:58 微博认证:汽车博主

OpenAI发了个狠货:GPT-Realtime-2。

第一个能在说话的同时进行推理的AI语音模型 以前的语音助手是:听你说完 → 处理 → 回答 现在是:边听边想边回答,还能随时被打断

上下文窗口从32K直接拉到128K 支持五档推理强度自选 你跟它聊半小时,它还记得你第一句话说了什么

更关键的是它能调用工具了 语音对话中直接查数据库、调API、执行任务 不是聊天机器人了,是语音版Agent

翻译模型支持70种语言实时互译 速度跟说话同步 跨国会议不用再请同传了

但最让我在意的是定价 音频输入32美元/百万token,输出64美元 比文本贵了将近10倍

这说明什么? 语音交互的计算成本还远没降下来 OpenAI在赌:语音会成为AI的第一入口 先占坑,再降本

语音交互的iPhone时刻可能真的要来了

发布于 北京