小米介绍MiMo高速模型

小米技术专门发文介绍了MiMo V2.5-Pro-UltraSpeed，我摘几个重要的：

1.提速的必要性
常规低速大模型如同载客大巴，适合多人排队慢速使用；但急救、紧急文件处理、AI智能体毫秒级响应等场景急需高速模型。同时多智能体协同工作模式兴起，单步运算速度是该模式落地的基础，1000TPS高速模型，可以满足极速使用场景需求。

2.高速模型可以拓展全新应用边界
超高速度解决了以往AI任务长时间等待的痛点：一是智能体任务效率大幅提升，数分钟的多轮协作任务可压缩至十几秒；二是支撑大规模多‑Agent协同落地；三是解锁实时竞价、实时语音对话、即时客服等低延迟场景，补足传统大模型反应滞后的短板。

3.MiMo的三项核心提速技术原理是什么
采用通俗类比解释三项底层优化技术：FP4量化技术，压缩非敏感参数精简模型体量；DFlash解码技术，改为整段处理信息，摒弃逐字处理模式；TileRT推理系统，优化算力调度，减少数据等待损耗，三项技术协同优化整体推理流程，在通用GPU硬件环境实现极速推理。

4.速度快了会不会影响模型效果
大众普遍顾虑提速会降低AI输出质量，小米MiMo的三项优化技术均只精简运算冗余环节，核心运算逻辑不变，同时配套校验机制，极速版本模型输出能力和原版模型水准一致，兼顾速度与内容质量。

发布于重庆