小米把万亿模型跑出1000 tokens/s:别人拼参数,雷军这次拼"打字速度"
6月8日,小米MiMo联合TileRT放出了MiMo-V2.5-Pro UltraSpeed极速模式——在通用GPU环境下,把万亿参数大模型的内容输出速度干到了1000 tokens/s,比V2.5-Pro直接翻了10倍。
但想用上得走申请制,6月9日到6月23日限时限量体验,定价是普通版的3倍,且只开放API、单账号每天最多10次、单次会话30分钟封顶。
门槛立得很高,但小米想抢"工业级实时推理"这张牌的意图也很明显。
底层架构其实早就在3月那波"AI核弹"里亮过相:MiMo-V2-Pro总参数量1.02万亿,激活参数约420亿(激活比4.1%左右),是典型的MoE(混合专家)打法——每次推理只唤醒一小撮专家,吞吐比传统架构直接拉3倍、KV缓存压掉近7倍。
上下文一口气拉到100万token,长文本侧还上了"滑动窗口注意力+全局注意力"6:1混搭的招,长文档任务性能跟纯全局注意力只差不到3%,推理速度反而提了2到3倍、显存省六成。
性能上雷军给的牌面也不藏着掖着:SWE-bench Pro上57.2%,是行业均值25%的两倍多;ClawEval 63.8、τ-Bench 72.9,对标的全是Claude Opus 4.6、GPT-5.4这一档。
在极端案例里,MiMo能连续4.3小时自主写编译器、工具调用672次;最夸张的一次是11.5小时端到端撸出一个全功能视频编辑器,8192行代码。
配上单次任务Token消耗比Claude Opus、GPT-5.4少40%-60%的链式思维优化,再叠加"输入\输出每百万Token"(不到Claude的六分之一)的定价——小米这次明摆着不是来"刷榜"玩的。
从160亿研发投入,到"人车家全生态"的端云协同落地(澎湃OS、SU7 Ultra智能座舱、Mimo-VL-Miloco家居视觉),再到这次把"速度"单独拎出来当产品卖点
小米走的是一条"参数+成本+速度"三件套的差异化路线:模型规模追上一线、推理价格打骨折、现在连出字速度都要做到行业第一档。
一句话:以前卷参数,后来卷价格,现在小米开始卷"打字速度"了——AI这行军备竞赛的下半场,连token出膛都要拼刺刀。
