高飞 25-11-25 12:56
微博认证:至顶科技创始人 AI博主

谷歌大神Jeff Dean斯坦福演讲 Important AI Trends:15年、8大突破,AI如何从"解不了小学数学"进化到"攻克奥数金牌"

这个讲座好像就不用我多做介绍了,演讲者Jeff Dean是计算机科学领域的传奇人物——1999年作为Google第30号员工加入,先后主导开发了MapReduce、BigTable、Spanner等奠定现代互联网基础设施的系统。2011年创立Google Brain,开发并开源了TensorFlow。如今是Google DeepMind首席科学家。

我觉得这次演讲的独特价值在于,虽然Jeff Dean的演讲题目是Important AI Trends,但可不是在讲别人的工作,而是在回顾他亲身参与的、塑造了整个AI行业的技术演进。从一个1990年用32核机器训练神经网络的"失败实验",到今天9000多块芯片组成的AI超算。一句话:这是一部亲历者讲述的AI算力与算法协同进化史。

得空,我再整理一个双语讲座视频出来。

---

一、认知框架:理解AI进步的底层逻辑

1、两股力量的乘法效应

过去十年AI的爆发性进展,本质上来自两个方向的同时突破:算力规模的指数级增长,以及算法效率的持续优化。Jeff Dean特别强调,这两者不是简单相加,而是相乘的关系——"even bigger things with even better algorithms tend to work even better"(更大的规模配合更好的算法,效果会好得多)。

2、计算范式的根本性转变

15年前评价一台电脑,你关心的是CPU多快、能不能流畅运行Word和Chrome。今天你关心的是:它能不能高效运行机器学习计算?这个转变不是渐进的,而是根本性的。整个计算产业的硬件设计逻辑、软件架构思维都在围绕这个新需求重构。

3、从"完全错误"的起点开始

Jeff Dean分享了一个坦诚的自我反思:1990年他的本科毕业论文就是用32核机器并行训练神经网络,当时他觉得这会是革命性的突破。结果呢?"I was completely wrong. You needed like a million times as much processing power to make really good neural nets, not 32 times."(我完全错了,要训练出真正好的神经网络,需要的不是32倍算力,而是100万倍。)但这个方向的直觉是对的,只是时机未到。

---

二、算力革命:从CPU集群到AI超级计算机

1、"一个让人心跳加速的计算"

2012年前后,Jeff Dean做了一个简单的估算:假设1亿人每天用3分钟语音交互(这两个数字是他随手假设的),如果要在数据中心用CPU运行当时最先进的语音识别模型,Google需要把服务器数量翻一倍。这个结论直接推动了TPU项目的启动。

2、神经网络计算的两个"作弊码"

为什么专用硬件能带来巨大优势?Jeff Dean指出两个关键特性:神经网络对低精度计算的容忍度极高,你不需要32位浮点数,低精度就够用;所有计算本质上都是密集的线性代数运算——矩阵乘法、向量点积。把这两点吃透,就能设计出效率高出几十倍的专用芯片。

3、3600倍的性能飞跃

从2017年的TPUv2到最新的Ironwood,每个Pod的峰值性能提升了约3600倍。这其中一部分来自制程进步,但更大一部分来自架构优化和能效提升。最新的Pod包含9216块芯片,通过3D Torus拓扑连接,能效比初代提升了30倍。

---

三、训练范式:从"完全错误"到"居然能用"

1、DistBelief:一个"数学上完全错误"但有效的系统

2012年Google Brain开发的DistBelief系统采用了一种看起来很疯狂的方法:200个模型副本同时训练,每个副本异步地从参数服务器下载参数、计算梯度、再异步上传更新。从严格的数学角度,这完全是错的——梯度更新会互相干扰。"So that made a lot of people kind of nervous... but it turned out it worked."(这让很多人很紧张...但结果它就是有效。)

2、"猫论文":无监督学习的里程碑

2012年的著名实验:用1000万帧随机YouTube视频,不给任何标签,只让模型学习重建原始像素。结果模型自己"发明"了猫的概念——最高层的某个神经元对猫脸的响应最强烈,尽管它从未被告知什么是猫。这个实验在ImageNet 22000类基准上获得了70%的相对提升。

3、词向量:让计算机理解"国王-男人+女人=女王"

Word2Vec的核心洞察是:如果用一个词来预测它周围的词,训练出的向量表示会捕捉到语义关系。Cat、puma、tiger会聚在一起。更神奇的是,向量的方向有意义——"king - man + woman"的方向会指向"queen",动词的过去式、将来式也呈现出一致的方向模式。

---

四、架构革命:Transformer为什么是"你只需要注意力"

1、LSTM的瓶颈:强迫所有信息挤进一个向量

在Transformer之前,主流的序列模型是LSTM。它的问题在于:每读一个词,就必须把所有历史信息压缩更新到一个固定大小的状态向量里。这就像让你把读过的一整本书的内容压缩成一页纸,然后只看这页纸来回答问题。

2、Attention的本质:保留所有历史,需要时再查

Transformer的核心思想出奇简单:别压缩了,把所有历史状态都保存下来,需要的时候用注意力机制去查询相关的部分。这一改动带来的效果惊人:达到相同精度,模型参数可以减少10倍,计算量可以减少10-100倍。

3、Vision Transformer:同样的思想,跨模态迁移

2020年Google团队证明,Transformer不仅适用于语言,在计算机视觉领域同样有效。与当时最好的CNN模型相比,ViT用4-20倍更少的计算量达到了最佳效果。算法突破带来的效率提升,往往比单纯堆算力更有价值。

---

五、效率革命:稀疏模型与知识蒸馏

1、"让模型学会偷懒"的智慧

普通神经网络每次预测都要激活所有参数,这很浪费。Jeff Dean和团队推动的稀疏模型(Mixture of Experts)思路是:训练一个巨大的模型,但每次只激活1-5%的参数,让不同的"专家"模块处理不同类型的问题。这个方法将训练成本降低了约8倍。如今主流的前沿模型(包括Gemini)都采用了稀疏架构。

2、知识蒸馏:用"软标签"加速学习

传统训练中,模型预测错误只知道"对错"。但如果有一个优秀的教师模型,它能告诉学生模型:这个空缺的词最可能是violin,其次是piano、trumpet,绝不可能是airplane。这种"软标签"包含了丰富得多的信息。实验显示,用蒸馏方法,只需3%的训练数据就能达到用100%数据训练的近似效果(57% vs 58.9%,而直接用3%数据只能达到44%)。

---

六、后训练革命:从预训练到RLHF

1、自监督学习:把整个互联网变成训练数据

语言模型训练的核心技巧是:挖掉一个词,让模型预测。这不需要任何人工标注,每一句话都能生成无数训练样本。Jeff Dean举了个例子:看到"Stanford ___",可能的答案有university、campus等很多种,模型必须学会利用更多上下文来做出更准确的预测。

2、Chain of Thought:让模型"展示演算过程"

2022年的重要发现:如果在示例中展示解题步骤而不是直接给答案,模型在新问题上的表现会大幅提升。一个解释是,模型为每个输出token做的计算量是固定的,"展示步骤"相当于给了模型更多的计算空间来推理。当时的里程碑是:在GSM8K(八年级数学题)上达到了15%的正确率。

3、可验证领域的强化学习:数学和代码成为突破口

RLHF依赖人类反馈,成本高且有主观性。但在数学和编程领域,存在客观的验证器:证明可以被证明检查器验证,代码可以被编译器和测试用例检验。这让模型可以大规模探索解题空间,正确时获得奖励。这一方向的突破直接推动了数学能力的飞跃。

---

七、Gemini:多模态时代的新标杆

1、从"八年级数学"到"国际奥赛金牌"的跨越

三年前,AI模型还在为"Sean有5个玩具,圣诞节又收到2个"这种题目挣扎。今年,Gemini 2.5 Pro的变体在国际数学奥林匹克(IMO)中解出了6题中的5题,获得金牌成绩。IMO主席对其中一道题(问题三)的解法评价很高,称赞其"优雅"。这个进步的速度令人震惊。

2、原生多模态:不是拼接,是融合

Gemini从设计之初就是多模态的,不是把视觉模型和语言模型简单拼在一起。最新的图像生成模型甚至能"在中间图像中推理"——比如问"球会落在哪个桶里",模型会在思维链中生成中间状态的图像来一步步推演。

3、实用场景:从菜谱照片到双语网站

Jeff Dean展示了一个生动案例:用户把各种格式的菜谱(有的是韩文手写、有的是英文打印)拍照上传,Gemini先完成翻译和转录,然后直接生成一个带配图的双语菜谱网站。整个过程展现了多种能力的无缝串联:OCR、翻译、理解、代码生成、图像生成。

---

八、前瞻与审慎:AI辅助的未来

1、"深度专业知识的民主化"

Jeff Dean认为AI最大的潜力之一是让深度专业知识触手可及。不会写代码的人可以用自然语言描述需求,获得可用的网站;没有医学背景的人可以获得更准确的健康信息。门槛的降低将释放大量此前被阻挡在外的创造力。

2、必须正视的风险

Jeff Dean没有回避负面影响的讨论。他特别提到了与John Hennessy、Dave Patterson等人合作的论文,访谈了医疗、教育、科研、媒体等领域的专家,探讨如何最大化收益、最小化风险。错误信息(misinformation)被反复提及为核心担忧。

3、一个务实的态度

"Done well, I think our AI-assisted future is bright, but I'm not completely oblivious."(如果做得好,我认为AI辅助的未来是光明的,但我不是完全没有意识到问题。)这句话或许最能代表一线研究者的心态:既对技术潜力抱有信心,也对其风险保持清醒。

---

核心洞察Q&A

Q1:为什么过去十年AI进步如此之快?

不是单一因素,而是算力增长与算法突破的乘法效应。TPU从v2到Ironwood性能提升3600倍,Transformer比LSTM效率提升10-100倍,稀疏模型又带来约8倍的训练成本下降。这些改进叠加在一起,创造了指数级的能力提升。关键洞察:单独看任何一项技术都不足以解释全局变化,要理解的是它们如何协同放大。

Q2:为什么数学和代码能力突破得特别快?

因为这两个领域存在客观的验证器。数学证明可以被形式化检查,代码可以被编译和测试。这意味着模型可以通过大量自我博弈式的探索来改进,不依赖昂贵且主观的人类反馈。从2022年解不了八年级数学题,到2025年拿下IMO金牌,这三年的跃进正是强化学习在可验证领域发力的结果。

Q3:普通人应该如何理解AI的边界?

Jeff Dean展示的案例很有启发性:AI在"从菜谱照片生成双语网站"这种组合任务上已经表现惊艳,但他也坦承IMO问题六没做出来,图像生成"doesn't always work"。一个务实的理解是:AI正在快速拓展能力边界,但边界依然存在;最有效的使用方式是把它当作强大的协作工具,而非无所不能的万能答案机。

发布于 陕西