电动知士 26-01-27 15:18
微博认证:汽车博主

微软今天发布了 Azure Maia 200 AI芯片,TSMC 3nm工艺,1400亿晶体管,HBM3e给到了216GB。但这里面最有意思的,不是它堆了多少料,而是:10 PetaFLOPS 的 FP4 算力。

这反映了一个明显的行业趋势:在推理环节,云厂商正在从“通用兼容”转向极致的“Token 经济学”。

面对 GPT-5.2 这种体量的模型,核心瓶颈往往不是计算,而是显存带宽。微软激进地押注 FP4,逻辑很务实——在显存容量不变的前提下,通过降低精度来倍增吞吐量,可以显著缓解带宽压力。

这就是为什么 Maia 200 敢宣称比 AWS Trainium 3 强 3 倍。不是魔法,而是物理规律的胜利。与其说是技术突破,不如说是商业上的取舍。

当 AI 服务从尝鲜走向大规模落地,如何把推理成本打下来,或许远比单纯卷 FP16/FP32 的峰值数据更关键。

另一方面,Maia 200 的发布,其实给具身智能指了一条明路:FP4 加上极致的能效比,正是未来机器人“云端大脑”的刚需。

想一想,具身智能目前的一大痛点:端侧算力和功耗的死结——你总不能在人形机器人那小小的胸腔里塞几张 B300吧?散热和能耗分分钟教做人。

但如果推理成本足够低、延迟足够低,把高阶的逻辑推理和多模态理解扔给云端的 Maia 200,端侧只保留基础的运动控制,这条路也不是不行哈。

特别是机器人处理的视觉流和 3D 空间数据,对于精度的容忍度其实很高。FP4 虽然看起来“糙”点,但用来处理海量感官数据刚刚好,根本不需要 FP16 的冗余。

大家觉得呢[doge]

发布于 北京