这个厉害了,天下武功,唯快不破。
小米发布了 MiMo-V2.5-Pro 的 UltraSpeed 模式,在通用 GPU 上将万亿参数模型的生成速度首次突破 1000 tokens/s。
有啥应用呢?总结几条:
1、速度即智能,AI 能在极短时间内并行探索多条推理路径,并进行后台自动纠错,大幅提升最终的输出质量与准确性。
2、编程智能体生产力狂飙,开发者不用再一直面对屏幕苦等。
3、商业高频决策闭环,毫秒级的“思考-响应”机制,让万亿参数大模型得以无缝接入对时间极度苛刻的商业化场景,例如高频量化交易、瞬时反欺诈风控拦截以及智能竞价。
4、医疗急救,在手术辅助,医疗影像实时分析等场景,AI 推理速度就是与时间赛跑的筹码,每提前一秒完成预判,就能为医生多争取一分救命的处置空间。
实现这一突破依赖于 MiMo 算法团队和 TileRT 系统团队的深度协作和极致 Codesign,主要包含三大技术支柱:FP4 量化,DFlash 投机解码,TileRT 超低延迟的推理系统。
目前 API 已经开放内测申请,定价为基础版的 3 倍,但提供 10 倍的速度体验。
传送门:mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps
#HOW I AI##科技先锋官# http://t.cn/AXXBPvJm
发布于 北京
