#模型时代##马斯克库克黄仁勋等进入会谈现场#
黄仁勋斯坦福CS153讲座:仅为“所谓自己热爱的事业”努力是错的,做任何事都应全力以赴
作为AI博主,今天发一下黄仁勋的讲座,应该是恰逢其时吧。
黄仁勋照例讲了关心芯片分配的叙事,还说斯坦福缺GPU,不是因为别人抢走了货源,而是自己的采购分配策略不合理。
这是NVIDIA CEO黄仁勋出现在斯坦福大学CS153(Frontier Systems)的第二年讲座。这门课由a16z合伙人Anjney Midha和前Twitter工程VP Michael Abbott联合授课,每周请一位行业顶级人物来讲。黄仁勋是回头客,去年冬季学期就来过。
这次对话覆盖面极广:从芯片co-design哲学到四代架构路线图,从MFU为什么是错误指标到开放模型战略,从能源千倍缺口到GPU出口管制争议,还顺便聊了Denny's的炸鸡和Superbird三明治。黄仁勋的风格一如既往,一个词能触发长时间独白。
一个重要背景:就在这次讲座前不久,xAI被曝出其Memphis集群的MFU仅11%。MFU衡量的是芯片理论算力被实际利用的比例,11%意味着近九成算力在空转,这个数字在行业内引发了对大规模算力利用效率的激烈讨论。黄仁勋在课堂上直接回应了这个话题,给出了完全不同于常规解读的视角。同时,NVIDIA刚在2026年3月GTC上正式发布了Vera Rubin架构,Feynman架构的技术细节也首次公开。
一、计算范式重塑:Co-Design如何制造百万倍加速
1、计算正在经历64年来最剧烈的重写
黄仁勋的起手判断:从IBM System 360算起,计算的基本模型在过去六十多年里没有根本改变。PC、互联网、移动、云,表层变化巨大,但底层的编程模型、处理架构、软件方法论本质相同。
变化发生在现在。过去的计算是"预录制"的,软件提前写好,内容提前存好,用户按需调用。AI时代的计算是"生成式"的,一切实时产生,能感知上下文,能响应意图而非仅仅执行指令。这个转变影响的是全栈每一层:开发方法论、团队组织方式、计算机架构、网络存储、云服务、应用类型。
黄仁勋在这里给了一个极简的框架来理解当前AI的能力边界:思考就是生成供自己内部消费的token,工具调用就是生成供外部消费的token。 GPT出现的那一刻,他就看到了"思考"即将到来,因为思考本质上和生成图像、生成文字是同一件事。从这个框架出发,agentic系统的出现只是时间问题。
2、Co-Design的斯坦福血统
黄仁勋把co-design追溯到斯坦福前校长、MIPS处理器架构师John Hennessy的RISC工作。RISC的核心洞察是:一颗极度优化但难以编译的处理器,不如一颗简单处理器配合优化编译器。两个系统协同设计的整体性能,超过各自单独优化再拼在一起的效果。
NVIDIA把这个思路推到极端。黄仁勋说NVIDIA可能是第一家"极端co-design"的计算机系统公司,同时优化CPU、GPU、网络交换、存储、编译器、框架、算法,所有层一起设计。
3、10年百万倍 vs 摩尔定律10年百倍
摩尔定律的好日子里,每18个月翻一倍,5年10倍,10年100倍。但支撑摩尔定律的Dennard Scaling,也就是晶体管缩小的同时功率密度保持恒定的物理规律,大约十年前就失效了。实际上过去10年光靠半导体工艺进步可能只拿到10倍。
NVIDIA通过co-design在10年里实现了100万倍加速。黄仁勋的类比:如果你能以光速旅行,住在哪里不再重要,整个社会都会改变。计算快了百万倍,整个计算范式就改变了。AI研究者不再纠结该精心挑选哪些数据,直接把全世界的数据扔给计算机,这就是大规模预训练爆发的物理前提。
二、四代芯片路线图:每一代解决一个时代的瓶颈
1、Hopper → Grace Blackwell → Vera Rubin → Feynman,每代对应一个计算模式
黄仁勋把NVIDIA过去几代架构的演进讲成了一条清晰的推理链,每一代的设计决策都来自对下一个计算瓶颈的预判。
Hopper是为预训练设计的。 当时最大的科学超算造价约3.5亿美元,NVIDIA判断预训练会成为一个需要数十亿美元级系统的超大规模问题。在市场上精确客户数为零的情况下,从第一性原理出发做了这个决定。
Grace Blackwell NVLink72是为推理和decode设计的。 训练之后,AI的目标是推理。处理神经网络分两部分,prefill负责上下文处理和注意力计算,decode负责token生成。Decode需要极高的内存带宽,远超单颗芯片能提供的量。所以NVIDIA把72颗芯片通过NVLink连在一起,发明了大量新的交换互连技术,造出了世界上第一台机架级计算机。比上一代快50倍,摩尔定律两年只能给2倍。
Vera Rubin是为智能体设计的。 智能体的计算模式和训练、推理都不同。智能体需要加载大量长期记忆到存储中,存储要直接连到GPU fabric上,不能中间拷来拷去。智能体会频繁调用工具,工具运行在CPU上,而这个数十亿美元的GPU超算在等一个CPU完成工具调用。所以CPU要极低延迟,NVIDIA设计了Vera CPU,当前世代单线程性能最强的处理器。
Feynman是为智能体群设计的。 未来的软件不再是单个智能体,而是智能体系统:智能体带着子智能体,子智能体又带子智能体,形成集群。什么样的计算机才能承载这种集群?这就是Feynman要解决的问题。NVIDIA在GTC 2026上透露Feynman将采用3D堆叠和协同封装光互连,预计2028年推出。光互连也是对当前铜线传输瓶颈的回应,主持人在对话中特别提到铜线已经成为数据中心的物理限制之一。
三、MFU是错误度量:在错误的指标上优化会让你变蠢
1、黄仁勋说他宁愿MFU低
这是整场对话中最反直觉的判断。xAI Memphis集群11%MFU被曝光后,行业把低MFU等同于浪费。黄仁勋的逻辑完全相反。
在大规模数据中心里,任何时刻都有某个环节是瓶颈:可能是算力,可能是内存带宽,可能是内存容量,可能是网络容量。你要做的是在每个维度上都超额配置,避免被Amdahl定律卡死。Amdahl定律说的是系统整体性能受限于最慢的那个环节,你把其他部分加速再多,瓶颈不动,整体提升就到顶了。如果你为峰值负载配置资源,那在非峰值时段,大量算力确实会空转,MFU就会低。但到了峰值时刻,你能拿到100%的超额配置算力,而且只会持续很短时间。如果那一刻你没有足够算力,短暂的等待就会变成漫长的等待。
"Flops are cheap",他直接说。H100涨价的原因在于带宽、架构和系统设计中的其他特性,不在于算力本身。
2、Tokens-per-watt才是方向,但不是终点
黄仁勋指出tokens-per-watt比flops更接近真实性能。NVLink72做大语言模型decode时,最关键的是跨72颗芯片的聚合带宽,MFU会低得离谱,因为prefill占比很小、大部分时间在decode。而且现在prefill和decode可以解耦部署,各自分配最适合的资源。结果是token生成效率极高,但MFU数字难看。
然后他自己又推翻了这个指标:不是所有token价值相等。编程token比闲聊token价值高得多。怎么衡量?没有标准智能度量。他把这比作SAT分数,你不能只优化SAT分数,你要优化更大的东西。
NVIDIA内部的做法是给每个架构研究方向定制严肃的evaluation,而不是用flops这种过于简化的指标。一个做编程的团队和一个做超导研究的团队,eval完全不同,但都跑在NVIDIA芯片上。在通用性和专用性之间找平衡,黄仁勋说"that's artistry",这就是他的日常工作。
四、开放模型战略:六个领域的基础模型为什么必须NVIDIA来做
1、开放模型的真实动机拆解
黄仁勋先声明立场:NVIDIA是Anthropic和OpenAI最大的token消费者之一,100%的工程师都有AI智能体辅助。闭源前沿模型好用,推荐所有人用。
然后话锋一转,讲为什么NVIDIA还要砸重金做开放模型。他把动机拆成三层。
第一层是激活生态。AI的本质是学习信息的表征,不同领域的信息结构和维度完全不同,训练方法也完全不同。化学、蛋白质、基因、物理系统、机器人,没有一个可以像语言模型那样直接用互联网语料。各领域的科学家没有足够的规模和技术来独立构建基础模型。NVIDIA有人才、有算力、有系统能力,决定在几个关键领域率先做出基础模型,把数据、模型、训练方法全部开放出去。
六个领域分别是:Nemotron(语言)、BioNemo(生物)、Alpamayo(自动驾驶)、Groot(人形机器人与通用机器人)、Earth-2(气候科学,介尺度多物理场)、Clara(医疗健康)。
没有这个起步工作,下游整个产业都激活不了。NVIDIA因此带动了全球自动驾驶公司、机器人公司、生命科学公司的参与。
第二层是语言公平。世界上太多语言因为使用人口不够大,不会被商业公司优先照顾。瑞典语、印度230多种小语种,除非有人真正在意,否则永远不会有好的模型。Nemotron做到了接近前沿水平,开放出来让任何人都能微调成自己语言的版本。
第三层是跨域融合。Alpamayo就是一个例子:一个语言模型和一个世界模型融合在一起。自动驾驶模型一方面检测道路和车辆,另一方面用人类先验知识进行推理。黄仁勋说Alpamayo只用了几百万英里的训练数据(而非几十亿英里)就达到了全球最有效的自动驾驶系统之一的水平,证明了语言模型融合世界模型的路线有效。Alpamayo在2026年1月CES上发布,是一个100亿参数的开源Vision-Language-Action模型,支持Level 4自动驾驶。
2、开放模型是AI安全的前提条件
黄仁勋在这个点上态度极为明确:如果你在意AI安全,就必须开放。
你没法防御一个黑箱,没法为一个黑箱做安全审计。即使你要求AI在执行前逐步推理、制定计划,"but you could always lie"。透明系统才能让所有研究者去审查。
面对未来超级智能体的网络安全威胁,正确的防御方式不是搞军备竞赛(你出7.0我出8.0),要靠大量廉价AI形成包围圈。Nemotron Nano就是这样被网络安全公司采用的:速度快、成本低,训练成网络攻击检测器,然后部署数万亿个。
五、能源:千倍需求与可持续能源的历史性窗口
1、能效优先,需求判断,投资窗口
黄仁勋对能源的判断分三步走。
第一步,在自己可控范围内提升效率。Tokens-per-watt已经改善了50倍,还会持续复合提升。
第二步,判断总需求。未来的计算有两个特征:一切都是生成式的(因为有智能和上下文感知),一切都是连续运行的(不再是按需调用)。从"预录制+按需"到"生成式+连续运行",所需能源大约是当前的1000倍。他还补了一句:这个数字可能还差几个数量级。
第三步,投资窗口。过去建太阳能农场和核电站需要政府补贴。现在市场力量足够强大,不需要补贴就能让资本主动投入可持续能源。黄仁勋认为这是人类历史上升级电网和发展可持续能源的最佳时机。
六、芯片出口管制:三层反驳和一个历史警告
1、GPU不是原子弹,竞争不是注定失败,限制损害的是美国自己
有学生问到"它国获取NVIDIA芯片"的问题。黄仁勋反应激烈,连续推翻三个他认为站不住脚的论述。
第一,GPU和原子弹的类比。"There are billion people with Nvidia GPUs. I advocate Nvidia GPUs to all of you…to my family, to my kids, to people I love, but I don't advocate atomic bombs to anybody. So that analogy is stupid." 10亿人在用GPU,他推荐GPU给家人和所有人,但他不会推荐原子弹给任何人。如果从这个类比出发,后面的推理全部站不住。
第二,"反正会输,何必去竞争"。黄仁勋说他不接受这个逻辑。如果你想让他输,你得真的打败他。他打了很多仗,目前还不错。竞争服务于市场,也强化你自己的公司。
第三,剥夺某些地区获取通用计算的权利,让一两家公司从中受益,损害整个美国科技产业。美国的科技产业是宝藏,他要确保学生们毕业时进入的是人类历史上最强大的计算产业,而不是一个为让步而萎缩的空壳。
他提了一个历史案例:美国电信行业。曾经同样的论调导致美国在电信基础技术上全面丧失地位,全被政策挤出去了。
他最后把态度浓缩成一句话:"Everybody should have AI. Nobody should have nuclear bombs."
2、AI末日叙事是不负责任的科幻想象
黄仁勋随后转向AI风险叙事。那些声称AI会在某个周三或周四下午7点突然达到奇点、毁灭社会的人,在用科幻小说式的恐惧来影响公共政策。"It is not true that we have no idea how these systems work. It is not true." 他连说了五个"it is not true"来反驳AI不可控的论述,指出这些说法伤害的恰恰是正在学习掌握这项技术的计算机科学学生。
3、美国本土算力短缺的真正原因
主持人随后追问:就算不禁售海外,美国本土的独立团队、创业公司、大学现在也拿不到足够算力,是不是应该优先保障国内?黄仁勋说"absolutely",但紧接着说"but that's not happening"。芯片不是被海外抢走了,问题出在需求侧。
七、大学算力危机:问题出在你自己
1、斯坦福的算力困境是斯坦福自己造成的
黄仁勋直接说这是斯坦福自己的问题。他的逻辑是:说"是你的问题"等于赋予你解决问题的权力。
根源在于大学的资金和计算组织方式。每个系自己拿经费、自己管资源,没人共享,但每笔经费又不够买大规模算力。大学从集中式计算环境走向人手一台笔记本的分散模式,这在AI时代不够用了。
他给了一个明确的数字:斯坦福约410亿美元捐赠基金,切出10亿做云服务,让每个学生和研究者都能用上AI超算。但你得提前规划。"If you want to buy a billion dollars worth of tomatoes, you don't show up to the grocery store." 你不能跑到店里发现没有10亿美元的番茄,然后指责别人囤货。
黄仁勋还当场承诺:斯坦福校长下单,他保证交付。
八、CEO的90%痛苦与战略思维的真实方法
1、不要只追求快乐,也要主动寻找痛苦
黄仁勋否定了"找到你热爱的事业"这个建议的普适性。很多人不知道自己热爱什么,这个标准太高了。他的做法是:无论给他什么工作,从刷厕所到做CEO,他都会尽全力做到最好。
CEO的工作也是如此。他说自己真正享受的只有10%,就是站在愿景、战略和执行的交汇点上构想未来。另外90%是痛苦的,但他拼尽全力去做。早期NVIDIA几乎倒闭了四五次,那种恐惧、屈辱、迷茫的感觉乘以一百万倍。
"I'm advising that you not seek for just joy, that you also seek for some pain, some suffering, because you're going to need it someday." 他建议学生不要只追求快乐,也要主动寻找一些痛苦和挣扎,因为总有一天你需要那种韧性。
2、战略思维的方法论:观察、推演、建模、倒推
黄仁勋拆解了自己的推理链:先观察,然后回到第一性原理做推演(这件事是大事吗?接下来会发生什么?还能解决什么问题?对计算意味着什么?),从此建立对未来的心智模型,然后从终态倒推。他承认自己不会完全正确,所以要分三档:一定会发生的、大概率会发生的、可能会发生的。朝着大方向走,同时减少机会成本、增加期权价值。
3、两个战略错误的复盘
第一个是NVIDIA第一代产品的技术路线完全错误:曲面而非三角形、没有Z-buffer、前向纹理映射而非逆向。"We did everything wrong." 但这次技术失败反而迫使他学会了战略思维,如何在竞争中保存和调配资源。
第二个是进入移动设备市场。有重要手机公司找上门,NVIDIA投入大量资源,做到了10亿美元营收,然后在3G转4G时被高通完全锁死。他说如果重来一次,当初就该拒绝,把资源保留给更有长期价值的方向。好消息是,那批低功耗和能效技术后来全部转入了机器人领域。Thor芯片就是那颗移动芯片的"曾曾曾曾孙"。不过他自己也补了一句:这是事后合理化,进那个市场就是浪费时间。
总结
这场讲座的信息量远超一般CEO校园演讲。黄仁勋的核心叙事线是:计算范式的每一次重大转变,NVIDIA都通过co-design提前一代预判瓶颈、提前一代设计解决方案,并且把加速成果通过开放模型扩散到全产业。他的判断方法论始终如一:观察、第一性原理推演、建立心智模型、倒推行动。
对从业者最有操作价值的判断有三个:第一,MFU不是正确的优化目标,要从系统全局的瓶颈分析和Amdahl定律出发思考资源配置;第二,开放模型的目标不是理想主义,它是激活下游生态的必要条件,也是AI安全的前提;第三,能源需求是当前的千倍量级,现在是投资可持续能源的最佳历史窗口。
核心归纳
Q1: NVIDIA的co-design和传统摩尔定律路线有什么本质区别?
摩尔定律依赖工艺微缩,也就是Dennard Scaling,过去十年大约只带来10倍提升。Co-design是同时优化芯片、编译器、框架、算法、网络、存储的全栈协同设计,NVIDIA在十年里实现了百万倍加速。这个量级差异直接催生了"把全世界数据都喂给计算机"的大规模预训练范式。
Q2: 为什么MFU低不一定意味着浪费?
大规模数据中心在任何时刻都有某个维度是瓶颈(算力、带宽、容量、网络)。正确做法是在每个维度超额配置,避免Amdahl定律卡脖子,也就是避免系统性能被最慢环节锁死。为峰值配置意味着非峰值时段MFU必然低。真正重要的是峰值时刻能否拿到所有需要的资源。用tokens-per-watt比flops更接近实际性能,但也不完美,因为不同类型token的价值差异巨大。
Q3: NVIDIA的四代架构路线图各自解决什么计算模式的瓶颈?
Hopper解决预训练的海量算力需求,推动系统从3.5亿美元级跨入数十亿美元级。Grace Blackwell NVLink72解决推理和token生成的内存带宽瓶颈,72芯互连实现50倍提升。Vera Rubin解决智能体模式下的存储直连、工具调用延迟和CPU单线程性能需求。Feynman面向智能体群和子智能体层级系统,采用3D堆叠和光互连。 http://t.cn/AXi6fg3Q
发布于 美国
