碳基进化 26-04-16 07:28
微博认证:科技博主

英伟达CEO黄仁勋近期接受科技播客Dwarkesh Patel的长篇访谈,从英伟达的核心竞争优势、供应链布局、与TPU的竞争,到最具争议的中国芯片出口议题,进行了全面而深入的讨论。以下是访谈的完整内容整理。

从电子到Token:英伟达的核心价值

当被问及英伟达是否可能像软件公司一样被商品化时,黄仁勋用一个简洁的框架定义了英伟达的本质:"输入是电子,输出是token,中间就是英伟达。"

他认为,将电子转化为token的过程蕴含了极高的技术门槛。"让一个token比另一个token更有价值,这当中的艺术性、工程、科学和发明,我们正在实时见证它的发生。"黄仁勋强调,这个转化过程中的制造与科学"远未被充分理解,这段旅程也远未结束。"

他进一步阐述英伟达的经营哲学:"我们的工作是尽一切必要的事,同时做尽可能少的事来实现这个转化。所谓'尽可能少',就是凡是我不需要做的事,我就找合作伙伴,让它成为我生态的一部分。"

黄仁勋将AI描述为一个"五层蛋糕",而英伟达在这五层都建立了生态。"我们试着做尽可能少的事,但我们必须做的那部分,事实证明,难到不可思议。我不认为那会被商品化。"

软件工具公司不会被AI取代,反而会爆发

对于AI将使软件公司商品化的看法,黄仁勋持完全相反的观点。"我认为agent的数量会指数级增长,使用工具的数量也会指数级增长。"

他以EDA工具为例:"Synopsys Design Compiler的使用实例数量很可能会暴增,使用布局规划工具、设计规则检查工具的agent数量也会暴增。"

"今天我们受限于工程师的数量。明天,这些工程师会有一群agent来支持他们。我们会以前所未见的方式探索设计空间,而我们会使用今天已有的工具。"黄仁勋指出,软件工具的使用之所以还没爆发,"是因为agent还不够擅长使用工具。"

供应链护城河:不只是锁定产能

根据报道,英伟达已有近1000亿美元的晶圆代工、内存与封装采购承诺,SemiAnalysis估计这个数字将达到2500亿美元。当被问到这是否代表英伟达的护城河就是锁定了多年的稀缺零部件时,黄仁勋回应:"这是我们能做到而别人难以做到的事情之一。"

但他强调,护城河不只是显性的合约承诺,更多是隐性的。"很多上游投资是我们的供应链伙伴做的,因为我对那些CEO说:'让我告诉你这个产业会有多大,让我解释为什么,让我跟你一起推理,让我展示我看到的。'"

"为什么他们愿意为我投资而不是为别人?因为他们知道我有能力买下他们的供应并通过我的下游卖出去。英伟达的下游需求如此之大,他们才愿意在上游做投资。"

他用GTC大会来说明这个生态系的运作:"整个AI宇宙都在一个地方,因为他们需要彼此看见。我把他们聚在一起,让下游看到上游,上游看到下游,所有人都能看到AI的进展。"

黄仁勋坦言,他的GTC演讲之所以有很长的"教育"成分,是刻意为之。"我需要确保整个供应链理解什么即将到来、为什么会来、什么时候来、规模多大,并且能像我一样有系统地推理。"

供应链瓶颈:没有一个会持续超过两三年

面对上游产能能否跟上英伟达每年营收翻倍的质疑,黄仁勋承认:"在任何一个瞬间,即时需求都大于世界上游和下游的供应。在任何一刻,我们都可能受限于水电工的数量,这真的发生过。"

但他认为这是好事。"你会希望一个产业的即时需求大于整个产业的总供应量。相反的情况显然不太好。"

以先进封装技术CoWoS为例,黄仁勋说明瓶颈如何被解决:"两年来我们疯狂冲刺,翻倍再翻倍再翻倍。现在台积电知道CoWoS的供应必须跟上逻辑芯片和内存的需求。CoWoS和HBM内存曾经是特殊产品,但它们不再是特殊产品了,人们现在认知到它们是主流计算技术。"

他也提到与美光早期合作的案例。"我还清楚记得那次会议,我明确说明了会发生什么、为什么会发生,以及对今天的预测。他们真的全力投入了LPDDR和HBM内存,这对公司来说显然是巨大的成功。"

关于光通信和硅光子技术,英伟达已提前数年投资布局。"我们与Lumentum、Coherent以及硅光子生态系的合作,真正重塑了供应链。我们围绕台积电建立了完整的供应链,与他们合作开发COUPE技术,发明了一大堆技术,并将那些专利授权给供应链,保持开放。"

黄仁勋总结:"我的观点是,没有任何瓶颈会持续超过两三年,没有一个。与此同时,我们正在将计算效率提升10倍、20倍,在Hopper到Blackwell的情况下是30倍到50倍。"

他认为真正令人担忧的是下游问题:"能源政策阻止能源供应。你不可能在没有能源的情况下创造一个产业。我们想要让美国重新工业化,想要带回芯片制造、计算机制造和封装。你不可能在没有能源的情况下建造这些东西,而那些需要很长的时间。"

TPU与英伟达的根本差异

当被指出世界前三大模型中有两个(Claude和Gemini)是在TPU上训练的,黄仁勋明确区分了两者的定位:"英伟达打造的是加速计算,不是张量处理单元。"

"加速计算用于各种事物:分子动力学、量子色动力学、数据处理、结构化与非结构化数据、流体力学、粒子物理学,此外还有AI。"他强调,"虽然AI是今天的话题,而且显然非常重要和有影响力,但计算的范畴远比AI更广。"

面对有人认为TPU这种大型脉动阵列(systolic array)更适合AI中反复进行的矩阵乘法运算,黄仁勋反驳:"矩阵乘法是AI的重要部分,但不是唯一的部分。如果你想发明新的注意力机制、以不同方式拆解架构,或发明全新的架构(像是混合SSM),你需要一个通用可编程的架构。"

"发明新算法的能力才是让AI进步如此快速的关键。"黄仁勋用具体数字说明:"TPU和其他任何东西一样,受摩尔定律影响,大约每年进步25%。真正要做到10倍或100倍的跃进,必须从根本上每年改变算法和计算方式。"

"我第一次宣布Blackwell比Hopper能效高35倍时,没有人相信。然后Dylan写了一篇文章说我低报了,实际上是50倍。你不可能单靠摩尔定律合理地做到这一点。"

他也回应了大型超大规模业者可以自己撰写kernel的论点。"我们派给这些AI实验室的工程师数量多到疯狂,和他们一起工作、优化他们的软件栈。因为没有人比我们更了解自己的架构。"

黄仁勋用赛车比喻:"CPU有点像凯迪拉克,是台很好的巡航车,大家都开得很好。但英伟达的GPU和加速器更像F1赛车。我可以想象每个人都能开到时速100英里,但要把它推到极限需要相当多的专业知识。"

"我们帮助AI实验室合作伙伴从他们的软件栈中额外榨出2倍性能,这种情况很常见。等我们优化完他们的软件栈或特定kernel,他们的模型加速3倍、2倍、50%,这并不罕见。"

黄仁勋直接挑战竞争对手:"英伟达的运算软件栈是全球每一美元最佳性能,无一例外。没有人能向我证明世界上有任何平台的性能与TCO比率更好。Dylan的InferenceMAX就在那里让所有人使用,TPU不来,Trainium也不来。我欢迎Trainium来证明他们总是宣称的那40%。"

CUDA生态系:安装基数才是真正的宝藏

黄仁勋阐述CUDA的价值不只是技术本身,而是三个层面的结合。

第一是生态系的丰富性与可编程能力。"如果你想在任何电脑上首先开发,在CUDA上首先开发是非常聪明的选择。因为生态系如此丰富,我们支持每个框架。"他提到英伟达对Triton的巨大贡献:"Triton的后端有大量英伟达技术。我们很乐意帮助每个框架变得尽可能优秀。"

第二是安装基数。"如果你是开发者,最重要的事就是安装基数。你希望你写的软件能在一大堆其他电脑上运行。英伟达的CUDA生态系最终就是它的伟大宝藏。我们现在有数亿个GPU在外面,每个云端都有。"

第三是无处不在的部署能力。"如果你是一家AI公司或开发者,你不确定会和哪个云服务商合作。我们在每个地方都能运行,包括你自己的本地环境。"

英伟达为何不自己成为超大规模业者

当被问到英伟达为何不自己成为云服务商,黄仁勋再次回到他的核心哲学:"尽一切必要的事,做尽可能少的事。"

"我们做的运算平台建设工作,如果我们不做,我真心相信不会有人做。如果我们没有承担这些风险,如果我们没有花20年的时间做CUDA同时大部分时间都在亏钱,没有人会做。"

"然而,世界上有很多云。如果我不做,总会有人出现。"他提到支持CoreWeave、Nscale、Nebius等新兴云端的策略:"如果我们不帮助CoreWeave存在,他们就不会存在。"

但他明确表示,英伟达不想成为金融业者。"你的问题是我们想不想进入融资业务。答案是不。有人在做融资业务,我们宁愿和所有做融资业务的人合作,而不是自己成为融资者。"

关于投资OpenAI 300亿美元和Anthropic的决定,黄仁勋表示:"这些投资我们会做,因为他们需要我们这么做。但我们不是在试图做尽可能多的事,我们是在试图做尽可能少的事。"

不挑选赢家的哲学

黄仁勋解释为何英伟达刻意不在AI公司中挑选赢家。"当我投资一家时,我投资所有的。"

他用英伟达自身的历史说明原因:"英伟达刚开始时,有60家3D图形公司。我们是唯一存活下来的。如果你拿那60家问哪家会成功,英伟达会排在最不可能成功的名单前面。"

"英伟达的图形架构当时是精确错误的,不是有一点错,而是精确地错了。那是一个开发者不可能支持的架构,永远不会成功的。所以我有足够的谦卑来认知这一点。不要挑选赢家,要么让他们自己照顾自己,要么照顾所有人。"

GPU分配:先下订单,先进先出

关于英伟达如何在GPU短缺时分配产能,黄仁勋直接否认了按照战略优先顺序分配的说法。"如果你不下采购订单(PO),世界上所有的谈话都没用。在我们收到PO之前,我们能做什么?"

"除此之外,先进先出。如果你还没准备好,因为你的数据中心还没准备好,我们可能会决定先服务另一个客户。那只是在最大化我们自己工厂的吞吐量。"

他也澄清了一则著名的传闻。"所有这些故事始于一篇关于Larry和Elon跟我共进晚餐时求GPU的文章。那从来没有发生过。我们确实一起吃了晚餐,而且是一顿很棒的晚餐。但他们从来没有求过GPU。他们只需要下订单。"

关于定价策略,黄仁勋表示英伟达从不根据需求调整价格。"你设定价格,然后人们决定要不要买。我知道芯片业界有些人在需求高的时候改价格,但我们就是不这么做。你可以依赖我们。如果我报了你一个价格,我们就报了你一个价格,就这样。"

他也提到与台积电近30年的合作关系:"英伟达和台积电之间没有法律合约。有时候我占便宜,有时候我吃亏,但整体而言,这段关系不可思议。我完全信任他们,完全依赖他们。"

英伟达产品路线图的可靠性

黄仁勋强调英伟达每年稳定推出新架构的能力是独一无二的竞争优势。"今年Vera Rubin会非常出色。明年Vera Rubin Ultra会来。后年Feynman会来。再后年,我还没公布名字。每一年你都可以依赖我们。"

"你去找世界上任何一个ASIC团队,看看能不能说:'我可以拿我的整个事业来押注,你每一年都会在那里支持我。你的token成本每年都会降低一个数量级。我可以像信赖时钟一样信赖你。'"

为何Anthropic使用TPU:英伟达的"失误"

当被问到为何Anthropic大量使用TPU和Trainium时,黄仁勋坦承这是一个他未能及时把握的机会。

"很久以前,我们就是没能力做到。当时我没有深刻体认到建立一个像OpenAI和Anthropic这样的基础AI实验室有多困难,以及他们需要供应商本身提供巨额投资的事实。"

"我们当时没有办法对Anthropic做数十亿美元的投资,让他们使用我们的运算。但Google和AWS可以。他们在一开始就投入巨额资金,让Anthropic使用他们的运算。"

"我的失误是我没有深刻体认到,创投永远不会投入50到100亿美元到一个AI实验室里,期望它会变成Anthropic。我一直以为他们可以像所有公司一样去找创投募资。但他们想做的事不可能通过创投来完成。"

"但我不会再犯同样的错误了。"

中国芯片出口:五层蛋糕的思维

访谈中最长也最激烈的部分围绕着是否应该限制对中国的芯片出口。黄仁勋与主持人进行了多回合的深入辩论。

面对Anthropic最新模型Mythos具备强大网络攻击能力的论点,黄仁勋指出:"Mythos是在相当普通的运算能力上训练的,而且数量也相当普通。它所训练使用的运算能力和类型,在中国是充足可得的。"

"你首先要认知到,中国已经有芯片。他们制造了全世界60%的主流芯片,可能更多。他们拥有世界上一些最顶尖的计算机科学家。所有这些AI实验室中的AI研究人员,大多数是中国人。他们拥有全球50%的AI研究人员。"

充足的能源弥补芯片的差距

黄仁勋提出一个关键论点:能源可以弥补芯片制程的落后。"AI是一个五层蛋糕,最底层是能源。当你有充足的能源,它可以弥补芯片的不足。"

"美国能源稀缺,这就是为什么英伟达必须不断推进架构、做极端的协同设计,让我们出货的少量芯片在有限的能源下,每瓦吞吐量超乎寻常。但如果你的电力完全充足而且免费,你何必在乎每瓦性能?"

"7纳米芯片基本上就是Hopper等级。我必须告诉你,今天的模型大部分是在Hopper这一代上训练的。所以7纳米芯片完全够用。"

他直接驳斥中国无法制造足够AI芯片的观点:"华为刚创下公司史上最大的单一年度营收。他们出了多少芯片?大量。数百万颗。数百万颗远比Anthropic拥有的多。"

"他们有充足的能源,有充足的逻辑芯片,有充足的HBM2内存。"当被指出HBM2与最新内存的带宽差距接近一个数量级时,黄仁勋回应:"他们可以把它们组合在一起,就像我们用NVL72组合一样。他们已经展示了硅光子技术,将所有计算连接成一台巨型超级计算机。"

算法才是真正的杠杆

黄仁勋强调,AI的进步主要来自算法而非硬件。"摩尔定律每年大约进步25%,但通过优秀的计算机科学,我们仍然可以将算法性能提升10倍。"

"我们必须承认,AI的大部分进步来自算法的进步,不只是原始硬件。既然大部分进步来自算法和计算机科学与编程,告诉我,他们的AI研究人员大军不是他们的根本优势吗?我们看得到。DeepSeek不是一个无足轻重的进展。"

他提出一个假设性的警告:"DeepSeek首次在华为上发布的那一天,对我们国家来说会是一个可怕的结果。"因为如果AI模型被优化为在中国硬件上运行最佳,当这些模型扩散到全世界时,就会推动中国的技术栈成为标准。

出口管制的反效果

黄仁勋直言现行出口管制政策已产生反效果。"如果我们被迫离开中国,首先,这是一个政策错误。它已经产生了反效果,对美国不利。它加速了他们的芯片产业。它迫使他们整个AI生态系专注于他们自己的内部架构。"

"中国是全球开源软件最大的贡献者,事实。中国是全球开放模型最大的贡献者,事实。今天这些都建在美国技术栈上,英伟达的。事实。"

他警告:"如果创造两个生态系,开源生态系只能在外国技术栈上运行,封闭生态系运行在美国技术栈上,我认为那对美国来说会是一个可怕的结果。"

黄仁勋对比了电信业的前车之鉴:"你所倡导的政策导致美国电信产业基本上被政策赶出了全世界,到了我们不再控制自己电信的地步。我不认为那是明智的。"

不是核武器,是芯片

当主持人将AI芯片类比为浓缩铀时,黄仁勋明确拒绝这个比喻。"把AI比作你刚才提到的任何东西都是疯狂的。""这是一个糟糕的类比,一个不合逻辑的类比。"

"它是一个芯片,而且是一个他们自己能制造的芯片。"

面对主持人引用Anthropic CEO Dario Amodei的比喻——就像波音吹嘘卖核弹给朝鲜但弹壳是波音做的。黄仁勋回应:"我不是以输家的心态醒来的人。那种输家态度、那种输家前提对我来说毫无意义。"

"我们不是一辆车。你今天可以买这个品牌的车,明天换另一个品牌,很容易。运算不是那样的。x86生态系存在是有原因的,ARM如此具有黏性是有原因的。这些生态系很难替换。"

美国应该五层都赢

黄仁勋的核心主张是,美国应该在AI五层栈的每一层都追求胜利。"美国应该领先,毫无疑问。美国应该拥有最先进的技术、最多的技术、最先得到它。但我们也应该在全球竞争和获胜。这两件事可以同时发生。"

"这需要一些细腻度、一些成熟度,而不是绝对化。世界不是绝对的。"

"50%的AI开发者在中国。美国不应该放弃这个。"

他坚持认为:"中国大约是全球科技产业的40%。为了美国科技产业而放弃那个市场,是对我们国家的亏待,是对我们国家安全的亏待,是对我们技术领导地位的亏待,而这一切只为了一家公司的利益。这对我来说毫无意义。"

为什么不做多种不同的芯片架构

当被问到英伟达为何不同时进行多个完全不同架构的芯片项目时,黄仁勋的回答很直接:"我们可以做,只是我们没有更好的想法。我们可以做所有那些事,只是不会更好。我们在模拟器中全部模拟过了,可以证明更差。"

不过他提到最近收购的Groq带来了新的可能性。"最近我们加入了Groq,我们要把Groq整合进我们的CUDA生态系。我们现在这样做是因为token的价值已经高到可以有不同的定价。"

"以前token要么免费,要么勉强算贵。但现在你可以有不同的客户,那些客户想要不同的回答。"他用自己公司的软件工程师举例:"如果我能给他们更快响应的token,让他们比现在更有生产力,我会付钱买。但这个市场只是最近才出现。"

如果深度学习革命没有发生

访谈的最后一个问题是假设性的:如果深度学习革命没有发生,英伟达会做什么?

"加速计算,我们一直在做的事。"黄仁勋毫不犹豫地回答。"我们公司的前提是通用运算对很多计算来说不理想。所以我们结合了GPU架构CUDA和CPU,来加速CPU的工作负载。"

"即使今天AI不存在,英伟达也会非常非常大。原因很根本,通用运算继续扩展的能力已经大致走到尽头,而解决方法就是特定领域加速。"

"如果没有AI,我会非常难过。但因为我们在运算上的进步,我们民主化了深度学习。我们让任何研究人员、任何科学家、任何学生,在任何地方都能拿到一台PC或一张GeForce显卡,然后做出了不起的科学研究。这个根本承诺一点都没有改变"。#微博新知# http://t.cn/AXMBI7QJ

发布于 江苏