小米把万亿模型跑出1000 tokens/s：别人拼参数，雷军这次拼"打字速度"6月8日，小米MiMo联合TileRT放出了MiMo-V2.5-Pro UltraSpeed极速模式——在通用GPU环境下，把万亿参数大模型的内容输出速度干到了1000 tokens/s，比V2.5-Pro直接翻了10倍。但想用上得走申请制，6月9日到6月23日限时限量体验，定

小米把万亿模型跑出1000 tokens/s：别人拼参数，雷军这次拼"打字速度"

6月8日，小米MiMo联合TileRT放出了MiMo-V2.5-Pro UltraSpeed极速模式——在通用GPU环境下，把万亿参数大模型的内容输出速度干到了1000 tokens/s，比V2.5-Pro直接翻了10倍。

但想用上得走申请制，6月9日到6月23日限时限量体验，定价是普通版的3倍，且只开放API、单账号每天最多10次、单次会话30分钟封顶。

门槛立得很高，但小米想抢"工业级实时推理"这张牌的意图也很明显。

底层架构其实早就在3月那波"AI核弹"里亮过相：MiMo-V2-Pro总参数量1.02万亿，激活参数约420亿（激活比4.1%左右），是典型的MoE（混合专家）打法——每次推理只唤醒一小撮专家，吞吐比传统架构直接拉3倍、KV缓存压掉近7倍。

上下文一口气拉到100万token，长文本侧还上了"滑动窗口注意力+全局注意力"6:1混搭的招，长文档任务性能跟纯全局注意力只差不到3%，推理速度反而提了2到3倍、显存省六成。

性能上雷军给的牌面也不藏着掖着：SWE-bench Pro上57.2%，是行业均值25%的两倍多；ClawEval 63.8、τ-Bench 72.9，对标的全是Claude Opus 4.6、GPT-5.4这一档。

在极端案例里，MiMo能连续4.3小时自主写编译器、工具调用672次；最夸张的一次是11.5小时端到端撸出一个全功能视频编辑器，8192行代码。

配上单次任务Token消耗比Claude Opus、GPT-5.4少40%-60%的链式思维优化，再叠加"输入\输出每百万Token"（不到Claude的六分之一）的定价——小米这次明摆着不是来"刷榜"玩的。

从160亿研发投入，到"人车家全生态"的端云协同落地（澎湃OS、SU7 Ultra智能座舱、Mimo-VL-Miloco家居视觉），再到这次把"速度"单独拎出来当产品卖点

小米走的是一条"参数+成本+速度"三件套的差异化路线：模型规模追上一线、推理价格打骨折、现在连出字速度都要做到行业第一档。

一句话：以前卷参数，后来卷价格，现在小米开始卷"打字速度"了——AI这行军备竞赛的下半场，连token出膛都要拼刺刀。

发布于北京