李飞飞最新CHMLive现场访谈全文万字记录（2）摘自天空之城城主 Web3天空之城第二个元素是使用 ImageNet 的大数据。第三个元素是 GPU 计算。当时，有两个 GPU。ImageNet 的重要性在于，它在今天看来微不足道。每个人都知道人工智能是由数据驱动的，但在 ImageNet 之前，人们不相信数据。每个人都在

李飞飞最新CHMLive现场访谈全文万字记录（2）

摘自天空之城城主 Web3天空之城

第二个元素是使用 ImageNet 的大数据。第三个元素是 GPU 计算。当时，有两个 GPU。ImageNet 的重要性在于，它在今天看来微不足道。每个人都知道人工智能是由数据驱动的，但在 ImageNet 之前，人们不相信数据。每个人都在研究完全不同的人工智能范式，只使用少量数据，有时甚至没有数据，就像手工制作的特征工程。

这个非常激进的想法是，从头开始就拥有了所有这些，在数据模型中使用数据，用数据驱动的方法驱动高容量模型，并推动人工智能的泛化。许多人对此深表怀疑。因此，没有这种观点，认为神经网络是一种通用函数逼近器。如果你给它们足够多的例子，它们就可以在输入之间进行映射，学习一个在输入和输出之间进行映射的函数。

这不是主流观点。很多更资深的同事都想知道你为什么这样做。我认为这是一个很好的例子，如果你相信某件事，有时候你应该坚持做下去，因为它会产生巨大的影响，即使你当时没有得到同事们的喜爱。

我并不是从消极的角度写的。我认为这是科学进步，就是受到挑战，无论是你的前辈、后辈还是你的学生。我不断受到学生的挑战。我可能每天都有 99 个愚蠢的想法，也许偶尔会有一个好主意。受到挑战是件好事，因为这是一个未经检验的想法，所以没关系。

特别是对于年轻人来说，仅仅因为你受到挑战并不意味着你应该放弃。所以这是这里重要的一课。

那么，从 2012 年到 2024 年，您认为在此期间我们取得了哪些最重要的进展？在人工智能领域，对。信不信由你，2012 年也是 Jennifer 怀疑的同一年，她的同事发现了 CRISPR。2012年是一个重要的年份。当时我与人讨论，发现同年出现了两项重大科学技术突破。从2012年到现在，已经过去了12年，这期间发生了许多重要事件。

在这个领域，尤其是更多的研究领域，我认为Alex和ImageNet的出现是一个重要时刻。它为先驱者打开了大门，包括像谷歌这样的科技公司，开始加倍投入深度学习。这标志着深度学习时代的开始。

2016年1月，AlphaGo与围棋大师李世乭对战并赢得比赛，这是一个公开的时刻。我认为那是公众第一次意识到机器足够强大，可以在人类认为只有我们才能完成的任务上挑战人类。此外，它还引入了一种称为强化学习的新算法，这种算法位于深度学习之上。

从2016年到2022年，对人工智能、大型科技公司和创业的投资逐渐增加。这段时间也与技术冲突的首次出现相吻合。对于我们很多人来说，技术冲突发生在剑桥分析公司事件之后，也就是2016年大选期间。那时，机器学习偏见被指出，自动驾驶汽车死亡事件也在2017年左右发生。因此，我们开始进行社会对话，在对技术的兴奋与对技术的担忧之间产生紧张关系。

所有这些都积累在2022年10月底，当时ChatGPT出现了。对于我们这些研究人员来说，我们看到了这种情况正在发生。你可能会认为我在虚张声势，但我会告诉你为什么。作为斯坦福人类中心研究所联席主任，我们在2021年成立了世界上第一个基础模型研究中心，因为我们看到了GPT-2的结果。当时，公众还没有意识到，但像我们这样的研究人员已经意识到这一点。我的同事Persi Leong和Chris Manning也意识到，这种情况将会改变。所以我们立即投入资源组建这个中心。

当ChatGPT出现时，我们很庆幸我们开始了这件事，但我们也对媒体关注度的上升感到震惊。我认为，AlphaGo时刻和ChatGPT时刻在公众意识方面的差异不仅仅是人数的问题。这是人工智能第一次如此亲密地掌握在个人用户手中。AlphaGo并不在围棋大师以外的任何用户手中，但ChatGPT就在你指尖。这是一个觉醒的时刻，不仅对每个人来说如此，对政府来说也是如此。

在ChatGPT之前，我们研究所的部分使命是弥合技术世界和政策世界之间的差距。所以，你在华盛顿，我不会自然而然地一直飞往华盛顿，但我去华盛顿只是为了继续对话。但在ChatGPT之后，华盛顿就像在召唤我们一样。就像，发生了什么事？没错。所以，我认为这10年真的……我的意思是，公众将其视为离散的事件点。我们认为这是一个连续的过程，只是越来越多的投资和运动。

研究界是否仍在争论这些大型语言模型是随机鹦鹉还是它们有实际的推理在进行？是的。那么，你对这场辩论有什么看法？我理解你为什么使用“随机鹦鹉”这个词，因为它来自一篇批评大型语言模型的论文。我认为重要的是要认识到我们确实需要从不同角度批评这些模型，包括其能力、能耗、局限性、偏见等等。

但我不会称它为“随机鹦鹉”。从科学的角度来看，我认为重要的是使用更中性的语气，而不是称它为上帝或鹦鹉。它确实是一个大型模型，不仅具有模式匹配、模式学习的能力，而且还具有预测能力，并且能够展示某种程度的推理能力。因为它能够向你解释事物是什么。我知道几天前刚刚发布了一个新版本，我个人还没有时间测试它。它将推理能力提升到了另一个阶段。所以我认为可以说它确实具有模式识别能力，有些人可能称之为鹦鹉学舌的能力，但它也具有一定程度的推理能力。

作为一名教育工作者，我总是非常小心，不要夸大这种推理是什么，包括一些更夸张的推断，比如感知或意识。那么，在未来三到五年内，你认为可能会发生什么？你认为目前存在的系统最大的局限性是什么？你认为我们可以更好地利用哪些领域？我们如何才能在提高其性能方面取得真正的进展？

汤姆，我不确定你是在狭义地问语言模型还是在问人工智能。

不，是关于一般的人工智能。

好的。例如，有些人认为，只要购买更多 GPU，我们就能取得令人难以置信的进步，比如购买两百万个 GPU 而不是两个 GPU。还有，更多的数据，更多的合成数据。

我们知道，Transformers 和注意力机制是当前技术的核心。有些人认为，只要扩大现有的技术规模，我们就能取得令人难以置信的进步。还有一些人认为，今天的人工智能版本有根本性的局限性，我们将不得不探索新的方法，比如神经符号方法或类似的东西。那么，你对这场辩论有什么强烈的看法吗？

嗯，首先，所有的观点都有其合理性。事实上，我确实认为我们正处于一场真正的人工智能数字革命中。未来三到五年将继续是技术非常令人兴奋的时期，但也会给我们的社会（包括政策）带来紧张局势。

您所问的更多是技术方面的问题。首先，我从根本上相信，在人类历史的每一个阶段，技术和科学都是有限的。我们总是可以推动前沿向前发展。就我个人而言，我对空间智能感到非常兴奋，这远远超出了语言的范畴。如果你看看人类和动物的智能，语言只是智能的一部分。即使我们研究的是高级智能，人类也已经建立了超越语言的文明。从金字塔的建造到第一次工业革命的机器的复杂设计，DNA结构的发现，电影摄影的创造等等，其中很多都是建立在超越语言的空间智能之上的。所以，除了语言之外，肯定还有新的大门打开了。

从技术上讲，数据的缩放定律仍然有效。我们仍然看到数据缩放定律的非常健康的证据。但同样非常有趣的是，我们越来越多地听到关于我们在何处达到数据极限的消息，尤其是互联网上基于文本的数据。我们很可能已经到达极限。但就我所处的高等教育领域而言，我还看到，在很多科学发现领域，数据甚至还没有得到妥善收集。从这些数据的数字化到这些数据的建模，我认为在未来三到五年内，由于人工智能和机器学习，我们将看到不同领域的科学发现蓬勃发展，不仅仅是大型基础模型的商业化。我们将看到更多的空间智能。我个人参与其中，并对此感到兴奋。未来三到五年不仅仅是技术发展的岁月，也是我们如何部署和管理这些模型的关键时期。

在加利福尼亚州，正在讨论人工智能法案。就我个人而言，我既支持安全措施，也支持政策措施。但我也担心，即使是善意的法案也可能对科学和开源社区产生意想不到的负面影响。这一切肯定会在未来三到五年内显现出来。

我想回到政策问题上，但首先请你为观众多描述一下你所说的空间智能。计算机能够看、做和学习意味着什么？我们如何知道我们在空间智能方面是否取得了进展？

你在斯坦福大学的一位同事切尔西·芬恩说，我们距离让机器人出现在它从未见过的房子里还很远。那么，比如说，距离吃早餐还有多远？非常远。我等不及了，但还很远。

发布于河南