缥缈Hyper 26-03-19 00:36
微博认证:汽车博主

小米发布三个模型:Xiaomi Mimo-V2 Pro、Xiaomi Mimo-V2-Omni、Xiaomi MiMo-V2-TTS,以下内容总结自Xiaomi Mimo-V2 Pro(Hunter Alpha):

一、MiMo-V2-Pro(旗舰推理模型)

**定位:** 小米旗舰基础模型,专为 Agentic 工作负载打造

**核心参数:**
- 总参数 **超 1T**,活跃参数 **42B**(约 3 倍于 Flash 版)
- **1M token 上下文窗口**
- 支持 Multi-Token Prediction (MTP) 快速生成
- Hybrid Attention 混合注意力(比例 5:1 → 7:1)

**Benchmark 成绩(全球对比):**
| 基准测试 | MiMo-V2-Pro | Claude Opus 4.6 | Claude Sonnet 4.6 | GPT-5.2 |
|---------|-------------|-----------------|-------------------|---------|
| ClawEval(通用Agent) | 61.5 | 66.3 | 66.3 | 50.0 |
| PinchBench | 84.0 | 86.3 | 86.9 | 77.0 |
| SWE-bench Verified(编程) | 78.0 | 80.8 | 79.6 | 80.0 |
| Terminal-Bench 2.0 | 57.1 | 65.4 | 59.1 | 54.0 |
| DeepSearch QA-F1(搜索) | 86.7 | 91.3 | 89.2 | 79.0 |

- 全球综合排名第 8(Artificial Analysis Intelligence Index)
- 在 OpenClaw 的 ClawEval 和 PinchBench 上接近 Opus 4.6
- 编程能力超过 Claude 4.6 Sonnet

**重磅揭秘:Hunter Alpha 就是 MiMo-V2-Pro!**
> 一周前在 OpenRouter 上线的匿名模型 Hunter Alpha,就是 MiMo-V2-Pro 的早期内部测试版。其调用量稳步增长,多次登顶 OpenRouter 日排行榜,累计用量超 1T tokens。

**定价(每百万 token):**
| 模型 | 输入 | 输出 | 缓存读取 |
|-----|-----|------|---------|
| MiMo-V2-Pro (≤256K) | $1 | $3 | $0.20 |
| MiMo-V2-Pro (256K-1M) | $2 | $6 | $0.40 |
| Claude Sonnet 4.6 | $3 | $15 | $0.30 |
| Claude Opus 4.6 | $5 | $25 | $0.50 |

**价格远低于 Claude,性能接近!**

---

二、MiMo-V2-Omni(全模态模型)

**定位:** See, Hear, Act — 一个模型处理图像、视频、音频、文本,具备 Agent 能力

**核心特点:**
- 统一架构:融合图像、视频、音频编码器到共享骨干网络
- **原生支持超 10 小时连续音频理解**(业界首个)
- 原生支持工具调用、函数执行、UI 定位
- 与 OpenClaw 深度集成

**多模态 Benchmark:**
- 音频理解:超越 Gemini 3 Pro(MMAU-Pro、BigBench-Audio)
- 图像理解:超过 Claude Opus 4.6,接近 Gemini 3(MMMU-Pro、CharXiv)
- 视频理解:原生音视频联合输入,具备未来预测能力

**Agent Benchmark:**
- MM-BrowserComp、OmniGAIA、Claw Eval:超越 Gemini 3 Pro 和 GPT-5.2
- PinchBench、SWE-Bench:与顶级推理模型持平

**亮点演示:**
1. 🚗 **自动驾驶视觉大脑**:实时分析行车记录仪,识别安全隐患
2. 🎬 **跨模态理解**:分析电影《好东西》片段的声画蒙太奇
3. 🎙️ **7小时播客一口气总结**:无分段、无中间摘要,一次处理完整播客
4. 🛒 **浏览器购物 Agent**:自动逛小红书、比价、砍价、下单
5. 📹 **视频创作+TikTok上传**:自动制作15秒视频并上传发布

---

三、MiMo-V2-TTS(语音合成模型)

**定位:** 给 Agent 一个有温度、有灵魂的声音

**核心能力:**
- **自然语言风格控制**:用文字描述声音(如"慵懒、刚睡醒、微哑"),无需预设标签
- **情感上下文感知**:自动识别文本情感并匹配语气
- **细粒度副语言事件**:咳嗽、叹气、犹豫填充词、笑声等自然生成
- **方言支持**:东北话、四川话、粤语、台腔普通话
- **角色扮演**:孙悟空、林黛玉等经典角色声线
- **唱歌能力**:同一模型内原生支持歌唱合成(业界唯一商用 TTS API)
- **高级文本理解**:全大写→强调、重复字→节奏、标点→语调

**技术架构:**
- 自研 Audio Tokenizer + 多码本联合语音-文本建模
- 1亿+小时语音数据预训练
- 多维强化学习优化(韵律、音质、发音、声音克隆、场景适配)

**特色示例:**
- 东北话:"哎呀妈呀,这外头风刮得,跟小刀刮脸似的!"
- 四川话:"哎哟喂,你还在磨蹭个啥子嘛!锅里头的红油都烧开了"
- 孙悟空:"师父莫怕!俺老孙刚才翻到那山头看过了"
- 林黛玉:"我就知道,别人不挑剩下的也不给我"

---

## 总结

| 模型 | 定位 | 核心亮点 |
|-----|------|---------|
| **MiMo-V2-Pro** | 旗舰推理/Agent模型 | Hunter Alpha真身、1T参数、1M上下文、接近Claude Opus但价格仅1/5 |
| **MiMo-V2-Omni** | 全模态理解+Agent | 图文音视统一、10h+音频、自动驾驶、浏览器自动化 |
| **MiMo-V2-TTS** | 智能语音合成 | 情感感知、方言/角色、唱歌、副语言事件、RL优化 |

**一句话:** 小米 MiMo 团队一口气发布了三个模型,覆盖推理、全模态理解和语音合成,直接对标 Claude/Gemini/GPT 系列,而且价格极具竞争力。Hunter Alpha 的身份也正式揭晓——正是 MiMo-V2-Pro 的早期版本。 #小米大模型#

发布于 北京