蚁工厂
26-06-09 15:00 微博认证:科技博主

#小米大模型刷新全球最快推理速度#
太快了~给你们感受一下 (这还没拍到最快的,最快时大概1500tokens/s )
这个是小米联合 AI 编译优化团队 TileRT 推出大模型 MiMo-V2.5-Pro 的 UltraSpeed 推理模式。
而且不是用Cerebras/Groq那种特殊硬件,是纯在通用gpu上靠性能优化。只用一个标准的 8 卡通用 GPU 节点,便让 1T 模型突破了 1000 tokens/s 的输出速度。而且还开源了这个模型。

实测让它在Claude Code里生成一个红楼梦的人物关系图谱网站,不到两分钟就好了……感觉完全没有摸鱼时间了 (如图)
如何优化的详细文档在这里:mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps
模型开源地址在:huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
#AI创造营#

发布于 山东