小米发布三个大模型

小米发布三个模型：Xiaomi Mimo-V2 Pro、Xiaomi Mimo-V2-Omni、Xiaomi MiMo-V2-TTS，以下内容总结自Xiaomi Mimo-V2 Pro（Hunter Alpha）：

一、MiMo-V2-Pro（旗舰推理模型）

**定位：** 小米旗舰基础模型，专为 Agentic 工作负载打造

**核心参数：**
- 总参数 **超 1T**，活跃参数 **42B**（约 3 倍于 Flash 版）
- **1M token 上下文窗口**
- 支持 Multi-Token Prediction (MTP) 快速生成
- Hybrid Attention 混合注意力（比例 5:1 → 7:1）

**Benchmark 成绩（全球对比）：**
| 基准测试 | MiMo-V2-Pro | Claude Opus 4.6 | Claude Sonnet 4.6 | GPT-5.2 |
|---------|-------------|-----------------|-------------------|---------|
| ClawEval（通用Agent） | 61.5 | 66.3 | 66.3 | 50.0 |
| PinchBench | 84.0 | 86.3 | 86.9 | 77.0 |
| SWE-bench Verified（编程） | 78.0 | 80.8 | 79.6 | 80.0 |
| Terminal-Bench 2.0 | 57.1 | 65.4 | 59.1 | 54.0 |
| DeepSearch QA-F1（搜索） | 86.7 | 91.3 | 89.2 | 79.0 |

- 全球综合排名第 8（Artificial Analysis Intelligence Index）
- 在 OpenClaw 的 ClawEval 和 PinchBench 上接近 Opus 4.6
- 编程能力超过 Claude 4.6 Sonnet

**重磅揭秘：Hunter Alpha 就是 MiMo-V2-Pro！**
> 一周前在 OpenRouter 上线的匿名模型 Hunter Alpha，就是 MiMo-V2-Pro 的早期内部测试版。其调用量稳步增长，多次登顶 OpenRouter 日排行榜，累计用量超 1T tokens。

**定价（每百万 token）：**
| 模型 | 输入 | 输出 | 缓存读取 |
|-----|-----|------|---------|
| MiMo-V2-Pro (≤256K) | $1 | $3 | $0.20 |
| MiMo-V2-Pro (256K-1M) | $2 | $6 | $0.40 |
| Claude Sonnet 4.6 | $3 | $15 | $0.30 |
| Claude Opus 4.6 | $5 | $25 | $0.50 |

**价格远低于 Claude，性能接近！**

---

二、MiMo-V2-Omni（全模态模型）

**定位：** See, Hear, Act — 一个模型处理图像、视频、音频、文本，具备 Agent 能力

**核心特点：**
- 统一架构：融合图像、视频、音频编码器到共享骨干网络
- **原生支持超 10 小时连续音频理解**（业界首个）
- 原生支持工具调用、函数执行、UI 定位
- 与 OpenClaw 深度集成

**多模态 Benchmark：**
- 音频理解：超越 Gemini 3 Pro（MMAU-Pro、BigBench-Audio）
- 图像理解：超过 Claude Opus 4.6，接近 Gemini 3（MMMU-Pro、CharXiv）
- 视频理解：原生音视频联合输入，具备未来预测能力

**Agent Benchmark：**
- MM-BrowserComp、OmniGAIA、Claw Eval：超越 Gemini 3 Pro 和 GPT-5.2
- PinchBench、SWE-Bench：与顶级推理模型持平

**亮点演示：**
1. 🚗 **自动驾驶视觉大脑**：实时分析行车记录仪，识别安全隐患
2. 🎬 **跨模态理解**：分析电影《好东西》片段的声画蒙太奇
3. 🎙️ **7小时播客一口气总结**：无分段、无中间摘要，一次处理完整播客
4. 🛒 **浏览器购物 Agent**：自动逛小红书、比价、砍价、下单
5. 📹 **视频创作+TikTok上传**：自动制作15秒视频并上传发布

---

三、MiMo-V2-TTS（语音合成模型）

**定位：** 给 Agent 一个有温度、有灵魂的声音

**核心能力：**
- **自然语言风格控制**：用文字描述声音（如"慵懒、刚睡醒、微哑"），无需预设标签
- **情感上下文感知**：自动识别文本情感并匹配语气
- **细粒度副语言事件**：咳嗽、叹气、犹豫填充词、笑声等自然生成
- **方言支持**：东北话、四川话、粤语、台腔普通话
- **角色扮演**：孙悟空、林黛玉等经典角色声线
- **唱歌能力**：同一模型内原生支持歌唱合成（业界唯一商用 TTS API）
- **高级文本理解**：全大写→强调、重复字→节奏、标点→语调

**技术架构：**
- 自研 Audio Tokenizer + 多码本联合语音-文本建模
- 1亿+小时语音数据预训练
- 多维强化学习优化（韵律、音质、发音、声音克隆、场景适配）

**特色示例：**
- 东北话："哎呀妈呀，这外头风刮得，跟小刀刮脸似的！"
- 四川话："哎哟喂，你还在磨蹭个啥子嘛！锅里头的红油都烧开了"
- 孙悟空："师父莫怕！俺老孙刚才翻到那山头看过了"
- 林黛玉："我就知道，别人不挑剩下的也不给我"

---

## 总结

| 模型 | 定位 | 核心亮点 |
|-----|------|---------|
| **MiMo-V2-Pro** | 旗舰推理/Agent模型 | Hunter Alpha真身、1T参数、1M上下文、接近Claude Opus但价格仅1/5 |
| **MiMo-V2-Omni** | 全模态理解+Agent | 图文音视统一、10h+音频、自动驾驶、浏览器自动化 |
| **MiMo-V2-TTS** | 智能语音合成 | 情感感知、方言/角色、唱歌、副语言事件、RL优化 |

**一句话：** 小米 MiMo 团队一口气发布了三个模型，覆盖推理、全模态理解和语音合成，直接对标 Claude/Gemini/GPT 系列，而且价格极具竞争力。Hunter Alpha 的身份也正式揭晓——正是 MiMo-V2-Pro 的早期版本。 #小米大模型#

发布于北京