http://t.cn/A6Dnpk9T访谈｜郝珂灵：OpenAI建立了AI帝国，但历史上帝国都会崩溃图片有竞争的思想，有底蕴的政治【编者按】：郝珂灵（Karen Hao）是全世界最早报道OpenAI的记者。2019年8月7日，当她抵达OpenAI办公室时，OpenAI还只是一家名不见经传、但处于快速变化中的公司。那时她是MIT Technolog

http://t.cn/A6Dnpk9T
访谈｜郝珂灵：OpenAI建立了AI帝国，但历史上帝国都会崩溃
图片
有竞争的思想，有底蕴的政治
【编者按】：郝珂灵（Karen Hao）是全世界最早报道OpenAI的记者。2019年8月7日，当她抵达OpenAI办公室时，OpenAI还只是一家名不见经传、但处于快速变化中的公司。那时她是MIT Technology Review报道人工智能领域的资深记者，具有MIT工科学位和硅谷工程师工作背景。报道过程经历了一系列波折。通过在OpenAI的公司受限制地蹲点三天，以及对该公司前员工和现员工、合作伙伴、朋友和其他领域专家近三十次采访，她观察到的是OpenAI的野心如何使其偏离了最初的使命。这篇深度报道刊发后，OpenAI显然并不满意，此后三年再也没有接受过她的采访。今年4月，在这本书面世之前，Sam Altman在社交媒体上发帖声称将会有人出书抹黑他和OpenAI, 并强调那本书的作者并未采访他。郝珂灵回应道：我就是“那个人”，我在写书的过程中一直寻求OpenAI可以出来接受采访，他们说了几个月“快了快了”，但始终没有（接受采访）。5月，郝珂灵在持续的业内采访基础上出版了新书Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI（《AI帝国：萨姆·奥特曼的OpenAI的梦想与噩梦》），深入探讨了这家引发AI军备竞赛的公司，以及这场竞赛对我们所有人意味着什么。6月24日晚，她在香港的线下文化空间“过滤气泡工作室”做了一场新书分享，主持人是香港中文大学新闻与传播学院助理教授方可成。以下是分享会的文字整理，我们将英文表述翻译成了中文，并对口语表达做了适当的编辑。本文经讲者审订。

文｜方可成
（香港中文大学新闻与传播学院助理教授）

图片6月24日，《AI帝国》作者郝珂灵（Karen Hao）在香港与香港中文大学新闻与传播学院助理教授方可成做新书分享。过滤气泡工作室供图

OpenAI选择“大力出奇迹”的发展路径，为了最快抢占先机

方可成：我想先请Karen来跟我们介绍一下Empire of AI这本书里面一个非常核心的观点，那就是：你对于OpenAI、对于Sam Altman发展AI产业的路径持非常批判的态度。所以，Sam Altman的策略，他发展AI的方式，问题究竟在哪里？OpenAI这个公司真的很糟糕吗？如何帮我们理解这个问题？

郝珂灵：很多人第一次接触人工智能就是因为ChatGPT，所以很多人以为ChatGPT就是全部的人工智能技术。但其实人工智能是一个总称，涵盖了很多种不同的技术。ChatGPT这种生成式AI技术采用的是大规模AI模型开发的方法，最重要的特点是：在训练这种模型的时候，要用很多数据、很多能源、很多资源来开发这种人工智能。

方可成：所以之前大家并不是用这种方式去做的？

郝珂灵：以前的AI模型都是用在数据、计算、能源方面都更加高效率的方法。但Sam Altman和其他高管——前首席科学家Ilya Sutskever、Greg Brockman，还有Elon Musk——刚开始创办OpenAI的时候，他们选择了这个特定的发展轨道。他们当时认为，最快在AI发展方面达到第一的方法，就是采用规模化的方法，用很大的规模来训练更好的模型。一旦他们选择了这种规模化方法，就必须用很多能源、很多资源来做人工智能。

方可成：所以就是“大力出奇迹”。他们其实也并不知道到底发生了什么，但就是要用更多的数据和能源。

郝珂灵：是的，这是一种非常暴力的方法，没有什么技术上的创新性。当时OpenAI刚开始的时候，这种方法其实被很多比较有名的科学家看不起，因为他们觉得这不是真正在探索新的技术来发展人工智能，而是用已有的技术来暴力突破，只是加更多数据、更多资源和能源，把规模扩大。

虽然当时那些科学家看不起这种方法，但后来OpenAI获得了巨大成功，所以现在很多人都忘记了以前那种轻视的观点，反而很羡慕OpenAI这种方法。我写这本书，有一个原因就是想描述这段历史，因为很多人已经忘记了以前人工智能领域有非常多样化的观点。但现在，所有的大公司，特别是美国的所有大公司，在发展人工智能时，都在用这种大规模模型开发的方法。

方可成：有人可能听说过一些相关的术语，比如神经网络、深度学习之类。这些是属于OpenAI的方法还是属于更高效的方法？

郝珂灵：深度学习既包括OpenAI的方法，用很大的数据集，也可以用比较小的数据集，它们都是深度学习。OpenAI当时就是用的这个技术，但他们改变了规模的数量级。

图片Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI书封

方可成：你刚才说这是四个人的共同决定。

郝珂灵：也可以说不只是这四个人，但是这四个人每个人对于为什么要用规模化的方法去做，都有不同的观点。对于Ilya Sutskever来说，他是一个科学家，他的整个职业生涯都在做反主流的事情。当时这种大规模的方法被认为不足以开发AI，但他就想要这么去做。作为四人团队中唯一的科学家，他就自己做决定说，我们要追求这个方法。

至于Sam Altman、Greg Brockman和Elon Musk，他们都是硅谷企业家，喜欢闪电式扩张、创造垄断的公司，所以他们也喜欢这种规模化方法。虽然他们没有科学背景，但他们懂得如何筹款，如何聚集所有资源来建造超级计算机。所以，这种方法对Sam Altman来说特别合适，因为这符合他擅长的东西。

方可成：他最擅长什么？

郝珂灵：他最干的就是能讲故事，讲未来的故事，他可以想象未来是什么样子，然后创造一个非常引人入胜的故事，让投资人、科学家、别的企业家都想加入他的使命，来构建他想象的未来。

但是他也是一个很有争议的人，因为他给不同的人讲的故事会不一样，所以有时候他会说我们应该这样做，因为人工智能特别好，如果我们能更快地开发这个技术，它会把我们带到乌托邦。有时候会跟别人说人工智能是一个很可怕的技术，所以我们要拼命去开发人工智能，然后控制这个发展，不要分享给别人，让我们自己留着，慢慢地训练出一个更好的版本。

所以有人认为他是这一代的乔布斯，但另一些人认为他是一个特别喜欢撒谎的人，会慢慢地不太信任他。但是因为他讲故事讲得特别强，就很能筹钱。筹钱这方面，他真的很擅长。

方可成：所以他们组成了这个团队，有了一个其实当时坚信这样一种方法的科学家，然后有这些企业家支持，特别是有一个非常会拿钱的人，因为这个方法显然需要非常多的金钱投入才可以，所以这些才促成了OpenAI开发ChatGPT以及之后的所有这些模型。

你实际上是在2019年就已经去过OpenAI采访，对吧？那个时候就已经是这个样子了吗？

郝珂灵：OpenAI是2015年底创立的，当时是一个非营利组织，他们说我们要做基础AI研究，我们不要做什么商业产品，也不要卖什么东西，要用一个完全非营利的环境慢慢地去探索人工智能，去发展这项科技。因为Elon Musk特别担心，他觉得如果在一个营利的环境下发展人工智能的话，事情会变得很糟糕——而他觉得糟糕的意思是：AI会发展出意识，会发展出情感，会失控并且杀死世界上的每一个人。

但是到了2017年，就是一年半之后，他们就开始确定这个规模化方法。他们开始讨论要从非营利转成营利，因为他们要钱，非营利如果想筹集那么大笔钱是不可能的事情。但是当他们开始讨论营利的时候，Elon Musk和Sam Altman都想当这个营利机构的CEO。当时其他两位倾向于Elon Musk，因为他们觉得Musk会把公司做得更成功。但是，Sam Altman就慢慢地开始跟Greg和Ilya说，你是不是觉得Musk有点太不可靠了？如果我们把这个公司交给他，人工智能以后发展的环境会不会不那么好？所以慢慢地就说服了Ilya Sutskever和Greg Brockman选他当CEO，而Musk就离开了。

所以我2019年去OpenAI的时候，他们其实已经偷偷地开始做这个规模化方法，但是还没有跟别人说。他们当时没有完全转成一个营利机构，而是在非营利组织里边创建了一个营利部门。今天OpenAI还是那种结构，既有非营利也有营利。当时他们就跟我说，这种方法最好，因为我们确实要筹集很大一笔钱，但是我们还是想保持我们以前这个非营利使命，所以做了一个比较奇怪的结构来制衡自己。虽然我们确实会以后可能要讨论怎么样去做产品，怎么样去商业化，但会被非营利的使命所管理。

方可成：那你在2019年采访的时候，当时有没有预料到后面这一系列从ChatGPT发布开始的轰动和发展？你当时觉得能看到未来的一些端倪吗？

郝珂灵：完全没有看到，因为当时我觉得他们的技术没有那么有意思。当时就是GPT-2，比ChatGPT早两代。GPT-2可以说可以写，但是写得也不好。这个模型本质上就是统计学，它讲的这些话虽然可以看起来有点像我们写的、说的，但它不是从同样的内在意义产生这些话。所以，我当时就没有意识到有了ChatGPT以后会那么轰动。

图片2024年8月，谷歌在乌拉圭卡内洛内斯建立新的数据中心。图源：谷歌博客

机器要“喝”干净的水，人要“洗”脏数据

方可成：你刚才说到了这种规模化的方法所消耗的资源是非常夸张的，可不可以给大家一些比较直观的例子，说明一下它是有多么夸张？

郝珂灵：好的。最近麦肯锡的一份报告显示，在5年之内，如果我们要继续维持超级计算机的发展来支持这种AI开发方式，我们必须在全球电网中增加相当于加利福尼亚州（世界第五大经济体）每年消耗能源的2到6倍的电力。而且，其中大部分必须来自化石燃料，因为这些数据中心不能只靠可再生能源来训练这些模型，也不能只靠可再生能源来部署这些模型。所以，我们实际上正在单方面逆转过去十年在气候方面取得的许多进展。

方可成：所以就是因为大语言模型的这个技术，所以我们不得不又重新使用很多化石能源。

郝珂灵：没错。另外，目前这些工具的开发还需要大量纯净水来冷却数据中心。而且必须是纯净水，因为其他类型的水会导致细菌滋生并腐蚀设备。彭博社最近有一篇报道说，三分之二的这些数据中心已经进入了面临水资源短缺问题的社区，所以训练这些模型实际上是在与社区的水资源竞争。

我在书里描述了南美洲的一个社区。我去的时候，他们正在经历一场历史性的旱灾。就在那次旱灾期间，市政府不得不开始将有毒的水混入公共供水系统，因为他们没有足够的公共用水。所以很穷的人就在喝有毒的水，而且当时有很多怀孕的女性，她们的流产率更高，因为她们在喝这种水。

方可成：而与此同时，机器却要喝干净的水。

郝珂灵：那时，谷歌提议在那个城市的中心建造一个数据中心，这将消耗大量的纯净水资源。

方可成：为什么会是这些地方呢？明明知道这些地方缺水，为什么还会去这些地方提议要建数据中心呢？

郝珂灵：因为现在基本上没有那么多地方不缺水了，这是一场全球气候危机。其实基本上就是没有足够的地方来满足这些数据中心的需求了。随着AI对资源需求的增加，气候危机也在加速。我们看到这两个轨迹的碰撞，所有这些数据中心现在都建在已经受到气候危机影响的地方。

方可成：你刚才介绍了环境资源上的代价，你在书里也提到了劳工方面的代价，这方面能不能给大家展开介绍一下？

郝珂灵：好的。OpenAI当时选择去训练这些大规模模型的时候，他们也做了另一个选择，就是为了满足大规模AI的数据需求，你必须从使用“干净的数据”转向使用“被污染的数据”，因为没有足够的干净数据。

方可成：什么是干净的和被污染的数据？

郝珂灵：干净数据指的就是，当你建一个数据集的时候，你知道里面是什么，因为那些都是你自己挑选出来的；而被污染的数据指的就是，从网上抓取大批数据，你也不知道里面到底有什么、是谁制造出来的。

方可成：那可能举个例子就是说，如果我选某一份报纸的数据，那我清楚地知道这份报纸上面有什么内容，这就是干净数据；而如果我在一个网络论坛，或者我在微博、Twitter上面随意地抓取一些数据下来，这就是污染数据。

郝珂灵：对的。互联网上什么都有，数据很乱。但你需要大量数据。OpenAI这些公司，它们实际上不知道自己的数据里有什么。当我采访研究人员时，除了数据来源之外，他们说不出数据的内容。

当你从使用干净数据转换到使用污染数据时，你必须开始做内容审核。因为当你在污染数据上训练这些大规模模型时，里面肯定会有很多杂乱的内容，模型就会开始表现得很奇怪，开始说一些有毒、辱骂、仇恨的话，这不会是一个好的消费者体验。

我采访的一个社群是肯尼亚的数据劳工，OpenAI在公司从基础研究转向商业化的时候，雇佣他们来执行这种内容审核。那些肯尼亚劳工，他们日复一日地阅读互联网上最糟糕的内容，试图训练一个过滤器来识别那些内容，然后阻止它被生成给用户。这是一个包裹在GPT模型周围的过滤器，确保用户永远不会接触到有毒内容。但这意味着，数据劳工在这个过程中受到了严重的心理创伤。

……

发布于安徽