理想M100芯片算力解析

昨天偶然刷到，忘了谁在讨论理想的 M100 芯片，来聊聊。

1280 TOPS是理想官方的算力标称值，这个数字引起过一些讨论。

有人翻出知乎上的帖子，说 1280TOPS 实际有效算力可能不到400TOPS。

理由是理想用了稀疏计算 —— 把1280T除以4:1的稀疏比，得到393T。

这显然不够准确。

首先，稀疏计算在AI芯片领域是常规做法，不是理想发明的。英伟达的很多芯片也会标注稀疏算力，Thor-U 的标称算力也是经过各种优化后的数字。

其次，论文里确实提到，实验时只用了14个TPB Cluster中的12个（86%的算力），目的不是隐藏算力，而是为了提高芯片良率，允许最多2个cluster有缺陷。

这样做出来的芯片，良率高、成本低，但如果2个cluster完全正常，芯片实际上可以跑出比测试数据更- 高的性能。

真正有参考价值的对比，是论文里白纸黑字写的数据：

在UniAD测试中：

- M100帧率：30 FPS
Thor-U帧率：7.9 FPS
- 差距：3.8倍

在LLaMA2-7B大语言模型推理测试中（prefill阶段）：

- M100延迟：79ms
- Thor-U延迟：154ms
- 差距：1.95倍

在理想自研MindVLA模型的测试中（decode阶段）：

- M100延迟：0.1ms
- Thor-U延迟：0.3ms
- 差距：3倍

这些数字是在相同功耗预算下测出来的。

所以，1280TOPS 即使打个折扣，在理想自己的算法上跑出来的效率，依然是Thor-U的3倍以上。

#新能源大牛说#

发布于上海