#OmniVoice 小米#的相关内容，来智搜看看。小米最新发布的OmniVoice是其MiMo-V2系列中的语音合成（TTS）模型，专为AI智能体（Agent）时代设计，具备高自然度、多语言支持和精细情感控制能力。该模型采用创新的语音文本联合建模架构，自研Audio Tokenizer与多码本语音模型，能够实现更精准的语音特征

#OmniVoice 小米#的相关内容，来智搜看看。小米最新发布的OmniVoice是其MiMo-V2系列中的语音合成（TTS）模型，专为AI智能体（Agent）时代设计，具备高自然度、多语言支持和精细情感控制能力。

该模型采用创新的语音文本联合建模架构，自研Audio Tokenizer与多码本语音模型，能够实现更精准的语音特征捕捉与还原。

核心亮点：

超高效率：RTF低至0.025，合成速度比实时快40倍。

多语言覆盖：支持600+语种，包括濒危小语种，可用少量样本生成高质量语音，助力语言数字化保护。

声音克隆能力：仅需3-10秒参考音频即可克隆声音，并可通过描述性别、年龄、音调、口音等属性生成个性化语音。

丰富表达：支持情绪调节、语气转折、唱歌、笑声等非语言符号，甚至可通过拼音/音标纠正发音，实现“能说会唱”的自然表达。

先进技术架构：基于扩散语言模型风格的离散非自回归架构，跳过中间语义token阶段，一步从文本生成语音；结合全码本随机掩码策略与预训练大语言模型初始化，保障清晰度与可懂度。

OmniVoice作为小米全栈AI布局中“发声”一环，与MiMo-V2-Pro（思考）、Omni（感知）共同构成完整的智能体闭环，已在小米浏览器、MiMo Studio、金山办公等平台上线，开发者可限时免费接入体验。 http://t.cn/AXMGC0gg

发布于北京