德卤爱开车 26-05-16 10:15
微博认证:微博新知博主 汽车博主 微博原创视频博主

昨天偶然刷到,忘了谁在讨论理想的 M100 芯片,来聊聊。

1280 TOPS是理想官方的算力标称值,这个数字引起过一些讨论。

有人翻出知乎上的帖子,说 1280TOPS 实际有效算力可能不到400TOPS。

理由是理想用了稀疏计算 —— 把1280T除以4:1的稀疏比,得到393T。

这显然不够准确。

首先,稀疏计算在AI芯片领域是常规做法,不是理想发明的。英伟达的很多芯片也会标注稀疏算力,Thor-U 的标称算力也是经过各种优化后的数字。

其次,论文里确实提到,实验时只用了14个TPB Cluster中的12个(86%的算力),目的不是隐藏算力,而是为了提高芯片良率,允许最多2个cluster有缺陷。

这样做出来的芯片,良率高、成本低,但如果2个cluster完全正常,芯片实际上可以跑出比测试数据更- 高的性能。

真正有参考价值的对比,是论文里白纸黑字写的数据:

在UniAD测试中:

- M100帧率:30 FPS
Thor-U帧率:7.9 FPS
- 差距:3.8倍

在LLaMA2-7B大语言模型推理测试中(prefill阶段):

- M100延迟:79ms
- Thor-U延迟:154ms
- 差距:1.95倍

在理想自研MindVLA模型的测试中(decode阶段):

- M100延迟:0.1ms
- Thor-U延迟:0.3ms
- 差距:3倍

这些数字是在相同功耗预算下测出来的。

所以,1280TOPS 即使打个折扣,在理想自己的算法上跑出来的效率,依然是Thor-U的3倍以上。

#新能源大牛说#

发布于 上海