订阅呀 26-04-09 08:26

#OmniVoice 小米#的相关内容,来智搜看看。小米最新发布的OmniVoice是其MiMo-V2系列中的语音合成(TTS)模型,专为AI智能体(Agent)时代设计,具备高自然度、多语言支持和精细情感控制能力。

该模型采用创新的语音文本联合建模架构,自研Audio Tokenizer与多码本语音模型,能够实现更精准的语音特征捕捉与还原。

核心亮点:

超高效率:RTF低至0.025,合成速度比实时快40倍。

多语言覆盖:支持600+语种,包括濒危小语种,可用少量样本生成高质量语音,助力语言数字化保护。

声音克隆能力:仅需3-10秒参考音频即可克隆声音,并可通过描述性别、年龄、音调、口音等属性生成个性化语音。

丰富表达:支持情绪调节、语气转折、唱歌、笑声等非语言符号,甚至可通过拼音/音标纠正发音,实现“能说会唱”的自然表达。

先进技术架构:基于扩散语言模型风格的离散非自回归架构,跳过中间语义token阶段,一步从文本生成语音;结合全码本随机掩码策略与预训练大语言模型初始化,保障清晰度与可懂度。

OmniVoice作为小米全栈AI布局中“发声”一环,与MiMo-V2-Pro(思考)、Omni(感知)共同构成完整的智能体闭环,已在小米浏览器、MiMo Studio、金山办公等平台上线,开发者可限时免费接入体验。 http://t.cn/AXMGC0gg

发布于 北京