小互AI
26-06-19 13:27 微博认证:AI博主

豆包实时语音模型3.0 API 上线

看演示还是很牛P的,能干不少事情了

全双工:能同时听和说,像真人聊天那样可以随时插话

端到端:语音进、语音出,不进行转录,更快、更自然。

精准遵循 + 适时参与:

你可以一句话给它定规矩,比如多人聊天时说「现在先别出声,聊到世界杯时再加入」, 它就安静待命,等话题真到了再主动接话

抗干扰

环境嘈杂声音或者有其他说话声音干扰,即便是在广播、导航、多人对话等嘈杂环境,也能正常工作

动态判停

难点是拿捏时机,你的短暂停顿可能是在思考,也可能说完了,或者是嗯嗯啊啊的语气词。它都能精准判断,等你真正说完才接话。

最关键的一步升级:

它支持自定义工具,能在实时对话里直接调用工具完成任务,预定日历、发邮件、总结文档、发起查询,一句话语音就在对话流里办完。这等于从「语音助手」往「语音 Agent」迈了一步

发布于 安徽