TPU与GPU性能对比分析

转：一篇必读的访谈，采访对象是一位曾参与 TPUv5、v6 和 v7 开发的前$GOOGL员工，他谈到了 TPU 与 GPU 的对比。我将分两部分发布这篇访谈，第一部分今天发布，第二部分明天发布：

1. 据他所说， $GOOGL TPU 在每瓦性能方面比 GPU 方案高出 20-30% 的成本效益。他提到，如果使用 Ironwood 芯片组而不是$NVDA NVL72 B200 芯片组，TPU 芯片组的功耗会降低 30%。部分原因是芯片尺寸更小，但他认为，即使芯片尺寸相同，ASIC 的功耗仍然会低于 GPU。

2. $GOOGL的 TPU 优势之一在于它们从一开始就是为液冷设计的。他认为$GOOGL的数据中心目前使用液冷 TPU 的效率远高于任何客户自行部署液冷 Blackwell 的数据中心。

3. 他同意混合专家模型（MOE）在TPU上的运行效率低于一些密度更高的模型。他认为主要原因是这些模型并非为TPU设计，但同时，迄今为止，借助“DeepSeek时刻”，MOE模型主要针对GPU进行了优化。TPU目前尚未向公众开放用于实验。

4. 在他看来， $GOOGL只需要一年时间来改变架构，以便更好地处理 MoE。

5. 他认为，随着时间的推移， $NVDA的 95% 市场份额将下降到 80-75%，而$GOOGL TPU 将占据 20-25% 的显著份额。他相信， $GOOGL的 TPU 的大部分收益也将来自$AMD 。他认为$NVDA将引发价格战以降低其总拥有成本 (TCO)。他认为，这将导致$NVDA的利润率大幅下降。

6. 如果$GOOGL想对外销售 TPU，主要任务之一是改进其对 PyTorch 的支持，并弥补这方面的不足。他认为这些不足将会得到解决。同时，他认为 TPU 缺乏 CUDA 支持的问题比$AMD的问题要小。TPU 的价值主张在于其架构带来的更高能效； $AMD并不具备这一点。

7. 谈到TPUv8，他认为$GOOGL意识到每瓦性能比原始性能更重要，v8版本将更加注重这一点，甚至可能更甚，并在这方面占据优势：“他们之所以能够提升性能，是因为他们在每瓦性能方面比GPU生态系统有了巨大的差距。”与此同时，他预计v7到v8之间的飞跃不会像v6到v7之间那样大。v6到v7的主要飞跃在于内存带宽。

8. 他认为$GOOGL将更多地转向 SXM 生态系统，使芯片完全集成，或者至少插槽不是通过 PCIe 扩展，而是直接在主板上。

发布于北京