小米大模型速度破千

我靠，看到小米MiMo-V2.5-Pro-UltraSpeed上线了！

前段时间刚把价格整下来，这次又直接把速度给干上去了。。。

我看了眼介绍，就一个字，快。

他们官方重点cue了一句「全球首个在通用GPU上突破 1000 tokens/s的万亿参数模型，刷新了通用GPU上旗舰模型的最快推理速度」。

一个总参数规模到1T级别的旗舰模型，官方说它在单个标准8-GPU通用服务器节点上，跑到了1000+ tokens/s 级别的输出速度。

注意这里说的是tokens/s。实际API体验里，速度也会受任务类型、上下文长度、网络环境影响。但放在万亿参数模型这个量级里，这个速度就很夸张了。

具体是什么个意思呢，我打个比方你就懂了。

1T 总参数规模，就像一套F1级别的引擎库。以前想让这种大模型跑得又快又便宜，基本都得在速度、成本和质量里面做取舍。

反正就是要么，推理系统很重，要么就成本压不下来，要么呢就是速度上不去。

但这次，MiMo-V2.5-Pro-UltraSpeed硬是在量产底盘上让F1引擎跑出了旗舰级的速度。

我简单用API跑了一下，让它做了一个类似英雄联盟的SVG小demo，美术和一些功能做了简化。

技能释放、小兵推进、地图路线这些也都有。最开始因为视角和坐标问题，我又让它修了2轮bug。前后差不多跑了十来分钟，整个体验确实挺快的了。

不愧是小米，这次MiMo-V2.5-Pro-UltraSpeed，确实有点东西，建议大家可以搭配Claude Code试试。

#小米大模型刷新全球最快推理速度#

发布于北京