转:一篇必读的访谈,采访对象是一位曾参与 TPUv5、v6 和 v7 开发的前$GOOGL员工,他谈到了 TPU 与 GPU 的对比。我将分两部分发布这篇访谈,第一部分今天发布,第二部分明天发布:
1. 据他所说, $GOOGL TPU 在每瓦性能方面比 GPU 方案高出 20-30% 的成本效益。他提到,如果使用 Ironwood 芯片组而不是$NVDA NVL72 B200 芯片组,TPU 芯片组的功耗会降低 30%。部分原因是芯片尺寸更小,但他认为,即使芯片尺寸相同,ASIC 的功耗仍然会低于 GPU。
2. $GOOGL的 TPU 优势之一在于它们从一开始就是为液冷设计的。他认为$GOOGL的数据中心目前使用液冷 TPU 的效率远高于任何客户自行部署液冷 Blackwell 的数据中心。
3. 他同意混合专家模型(MOE)在TPU上的运行效率低于一些密度更高的模型。他认为主要原因是这些模型并非为TPU设计,但同时,迄今为止,借助“DeepSeek时刻”,MOE模型主要针对GPU进行了优化。TPU目前尚未向公众开放用于实验。
4. 在他看来, $GOOGL只需要一年时间来改变架构,以便更好地处理 MoE。
5. 他认为,随着时间的推移, $NVDA的 95% 市场份额将下降到 80-75%,而$GOOGL TPU 将占据 20-25% 的显著份额。他相信, $GOOGL的 TPU 的大部分收益也将来自$AMD 。他认为$NVDA将引发价格战以降低其总拥有成本 (TCO)。他认为,这将导致$NVDA的利润率大幅下降。
6. 如果$GOOGL想对外销售 TPU,主要任务之一是改进其对 PyTorch 的支持,并弥补这方面的不足。他认为这些不足将会得到解决。同时,他认为 TPU 缺乏 CUDA 支持的问题比$AMD的问题要小。TPU 的价值主张在于其架构带来的更高能效; $AMD并不具备这一点。
7. 谈到TPUv8,他认为$GOOGL意识到每瓦性能比原始性能更重要,v8版本将更加注重这一点,甚至可能更甚,并在这方面占据优势:“他们之所以能够提升性能,是因为他们在每瓦性能方面比GPU生态系统有了巨大的差距。”与此同时,他预计v7到v8之间的飞跃不会像v6到v7之间那样大。v6到v7的主要飞跃在于内存带宽。
8. 他认为$GOOGL将更多地转向 SXM 生态系统,使芯片完全集成,或者至少插槽不是通过 PCIe 扩展,而是直接在主板上。
