小米发布千tokens/s模型

这个厉害了，天下武功，唯快不破。

小米发布了 MiMo-V2.5-Pro 的 UltraSpeed 模式，在通用 GPU 上将万亿参数模型的生成速度首次突破 1000 tokens/s。

有啥应用呢？总结几条：

1、速度即智能，AI 能在极短时间内并行探索多条推理路径，并进行后台自动纠错，大幅提升最终的输出质量与准确性。

2、编程智能体生产力狂飙，开发者不用再一直面对屏幕苦等。

3、商业高频决策闭环，毫秒级的“思考-响应”机制，让万亿参数大模型得以无缝接入对时间极度苛刻的商业化场景，例如高频量化交易、瞬时反欺诈风控拦截以及智能竞价。

4、医疗急救，在手术辅助，医疗影像实时分析等场景，AI 推理速度就是与时间赛跑的筹码，每提前一秒完成预判，就能为医生多争取一分救命的处置空间。

实现这一突破依赖于 MiMo 算法团队和 TileRT 系统团队的深度协作和极致 Codesign，主要包含三大技术支柱：FP4 量化，DFlash 投机解码，TileRT 超低延迟的推理系统。

目前 API 已经开放内测申请，定价为基础版的 3 倍，但提供 10 倍的速度体验。

传送门：mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps

#HOW I AI##科技先锋官# http://t.cn/AXXBPvJm

发布于北京