http://t.cn/A6Dnpk9T
访谈|郝珂灵:OpenAI建立了AI帝国,但历史上帝国都会崩溃
图片
有竞争的思想,有底蕴的政治
【编者按】:郝珂灵(Karen Hao)是全世界最早报道OpenAI的记者。2019年8月7日,当她抵达OpenAI办公室时,OpenAI还只是一家名不见经传、但处于快速变化中的公司。那时她是MIT Technology Review报道人工智能领域的资深记者,具有MIT工科学位和硅谷工程师工作背景。报道过程经历了一系列波折。通过在OpenAI的公司受限制地蹲点三天,以及对该公司前员工和现员工、合作伙伴、朋友和其他领域专家近三十次采访,她观察到的是OpenAI的野心如何使其偏离了最初的使命。这篇深度报道刊发后,OpenAI显然并不满意,此后三年再也没有接受过她的采访。今年4月,在这本书面世之前,Sam Altman在社交媒体上发帖声称将会有人出书抹黑他和OpenAI, 并强调那本书的作者并未采访他。郝珂灵回应道:我就是“那个人”,我在写书的过程中一直寻求OpenAI可以出来接受采访,他们说了几个月“快了快了”,但始终没有(接受采访)。5月,郝珂灵在持续的业内采访基础上出版了新书Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI(《AI帝国:萨姆·奥特曼的OpenAI的梦想与噩梦》),深入探讨了这家引发AI军备竞赛的公司,以及这场竞赛对我们所有人意味着什么。6月24日晚,她在香港的线下文化空间“过滤气泡工作室”做了一场新书分享,主持人是香港中文大学新闻与传播学院助理教授方可成。以下是分享会的文字整理,我们将英文表述翻译成了中文,并对口语表达做了适当的编辑。本文经讲者审订。
文|方可成
(香港中文大学新闻与传播学院助理教授)
图片6月24日,《AI帝国》作者郝珂灵(Karen Hao)在香港与香港中文大学新闻与传播学院助理教授方可成做新书分享。过滤气泡工作室 供图
OpenAI选择“大力出奇迹”的发展路径,为了最快抢占先机
方可成:我想先请Karen来跟我们介绍一下Empire of AI这本书里面一个非常核心的观点,那就是:你对于OpenAI、对于Sam Altman发展AI产业的路径持非常批判的态度。所以,Sam Altman的策略,他发展AI的方式,问题究竟在哪里?OpenAI这个公司真的很糟糕吗?如何帮我们理解这个问题?
郝珂灵:很多人第一次接触人工智能就是因为ChatGPT,所以很多人以为ChatGPT就是全部的人工智能技术。但其实人工智能是一个总称,涵盖了很多种不同的技术。ChatGPT这种生成式AI技术采用的是大规模AI模型开发的方法,最重要的特点是:在训练这种模型的时候,要用很多数据、很多能源、很多资源来开发这种人工智能。
方可成:所以之前大家并不是用这种方式去做的?
郝珂灵:以前的AI模型都是用在数据、计算、能源方面都更加高效率的方法。但Sam Altman和其他高管——前首席科学家Ilya Sutskever、Greg Brockman,还有Elon Musk——刚开始创办OpenAI的时候,他们选择了这个特定的发展轨道。他们当时认为,最快在AI发展方面达到第一的方法,就是采用规模化的方法,用很大的规模来训练更好的模型。一旦他们选择了这种规模化方法,就必须用很多能源、很多资源来做人工智能。
方可成:所以就是“大力出奇迹”。他们其实也并不知道到底发生了什么,但就是要用更多的数据和能源。
郝珂灵:是的,这是一种非常暴力的方法,没有什么技术上的创新性。当时OpenAI刚开始的时候,这种方法其实被很多比较有名的科学家看不起,因为他们觉得这不是真正在探索新的技术来发展人工智能,而是用已有的技术来暴力突破,只是加更多数据、更多资源和能源,把规模扩大。
虽然当时那些科学家看不起这种方法,但后来OpenAI获得了巨大成功,所以现在很多人都忘记了以前那种轻视的观点,反而很羡慕OpenAI这种方法。我写这本书,有一个原因就是想描述这段历史,因为很多人已经忘记了以前人工智能领域有非常多样化的观点。但现在,所有的大公司,特别是美国的所有大公司,在发展人工智能时,都在用这种大规模模型开发的方法。
方可成:有人可能听说过一些相关的术语,比如神经网络、深度学习之类。这些是属于OpenAI的方法还是属于更高效的方法?
郝珂灵:深度学习既包括OpenAI的方法,用很大的数据集,也可以用比较小的数据集,它们都是深度学习。OpenAI当时就是用的这个技术,但他们改变了规模的数量级。
图片Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI书封
方可成:你刚才说这是四个人的共同决定。
郝珂灵:也可以说不只是这四个人,但是这四个人每个人对于为什么要用规模化的方法去做,都有不同的观点。对于Ilya Sutskever来说,他是一个科学家,他的整个职业生涯都在做反主流的事情。当时这种大规模的方法被认为不足以开发AI,但他就想要这么去做。作为四人团队中唯一的科学家,他就自己做决定说,我们要追求这个方法。
至于Sam Altman、Greg Brockman和Elon Musk,他们都是硅谷企业家,喜欢闪电式扩张、创造垄断的公司,所以他们也喜欢这种规模化方法。虽然他们没有科学背景,但他们懂得如何筹款,如何聚集所有资源来建造超级计算机。所以,这种方法对Sam Altman来说特别合适,因为这符合他擅长的东西。
方可成:他最擅长什么?
郝珂灵:他最干的就是能讲故事,讲未来的故事,他可以想象未来是什么样子,然后创造一个非常引人入胜的故事,让投资人、科学家、别的企业家都想加入他的使命,来构建他想象的未来。
但是他也是一个很有争议的人,因为他给不同的人讲的故事会不一样,所以有时候他会说我们应该这样做,因为人工智能特别好,如果我们能更快地开发这个技术,它会把我们带到乌托邦。有时候会跟别人说人工智能是一个很可怕的技术,所以我们要拼命去开发人工智能,然后控制这个发展,不要分享给别人,让我们自己留着,慢慢地训练出一个更好的版本。
所以有人认为他是这一代的乔布斯,但另一些人认为他是一个特别喜欢撒谎的人,会慢慢地不太信任他。但是因为他讲故事讲得特别强,就很能筹钱。筹钱这方面,他真的很擅长。
方可成:所以他们组成了这个团队,有了一个其实当时坚信这样一种方法的科学家,然后有这些企业家支持,特别是有一个非常会拿钱的人,因为这个方法显然需要非常多的金钱投入才可以,所以这些才促成了OpenAI开发ChatGPT以及之后的所有这些模型。
你实际上是在2019年就已经去过OpenAI采访,对吧?那个时候就已经是这个样子了吗?
郝珂灵:OpenAI是2015年底创立的,当时是一个非营利组织,他们说我们要做基础AI研究,我们不要做什么商业产品,也不要卖什么东西,要用一个完全非营利的环境慢慢地去探索人工智能,去发展这项科技。因为Elon Musk特别担心,他觉得如果在一个营利的环境下发展人工智能的话,事情会变得很糟糕——而他觉得糟糕的意思是:AI会发展出意识,会发展出情感,会失控并且杀死世界上的每一个人。
但是到了2017年,就是一年半之后,他们就开始确定这个规模化方法。他们开始讨论要从非营利转成营利,因为他们要钱,非营利如果想筹集那么大笔钱是不可能的事情。但是当他们开始讨论营利的时候,Elon Musk和Sam Altman都想当这个营利机构的CEO。当时其他两位倾向于Elon Musk,因为他们觉得Musk会把公司做得更成功。但是,Sam Altman就慢慢地开始跟Greg和Ilya说,你是不是觉得Musk有点太不可靠了?如果我们把这个公司交给他,人工智能以后发展的环境会不会不那么好?所以慢慢地就说服了Ilya Sutskever和Greg Brockman选他当CEO,而Musk就离开了。
所以我2019年去OpenAI的时候,他们其实已经偷偷地开始做这个规模化方法,但是还没有跟别人说。他们当时没有完全转成一个营利机构,而是在非营利组织里边创建了一个营利部门。今天OpenAI还是那种结构,既有非营利也有营利。当时他们就跟我说,这种方法最好,因为我们确实要筹集很大一笔钱,但是我们还是想保持我们以前这个非营利使命,所以做了一个比较奇怪的结构来制衡自己。虽然我们确实会以后可能要讨论怎么样去做产品,怎么样去商业化,但会被非营利的使命所管理。
方可成:那你在2019年采访的时候,当时有没有预料到后面这一系列从ChatGPT发布开始的轰动和发展?你当时觉得能看到未来的一些端倪吗?
郝珂灵:完全没有看到,因为当时我觉得他们的技术没有那么有意思。当时就是GPT-2,比ChatGPT早两代。GPT-2可以说可以写,但是写得也不好。这个模型本质上就是统计学,它讲的这些话虽然可以看起来有点像我们写的、说的,但它不是从同样的内在意义产生这些话。所以,我当时就没有意识到有了ChatGPT以后会那么轰动。
图片2024年8月,谷歌在乌拉圭卡内洛内斯建立新的数据中心。图源:谷歌博客
机器要“喝”干净的水,人要“洗”脏数据
方可成:你刚才说到了这种规模化的方法所消耗的资源是非常夸张的,可不可以给大家一些比较直观的例子,说明一下它是有多么夸张?
郝珂灵:好的。最近麦肯锡的一份报告显示,在5年之内,如果我们要继续维持超级计算机的发展来支持这种AI开发方式,我们必须在全球电网中增加相当于加利福尼亚州(世界第五大经济体)每年消耗能源的2到6倍的电力。而且,其中大部分必须来自化石燃料,因为这些数据中心不能只靠可再生能源来训练这些模型,也不能只靠可再生能源来部署这些模型。所以,我们实际上正在单方面逆转过去十年在气候方面取得的许多进展。
方可成:所以就是因为大语言模型的这个技术,所以我们不得不又重新使用很多化石能源。
郝珂灵:没错。另外,目前这些工具的开发还需要大量纯净水来冷却数据中心。而且必须是纯净水,因为其他类型的水会导致细菌滋生并腐蚀设备。彭博社最近有一篇报道说,三分之二的这些数据中心已经进入了面临水资源短缺问题的社区,所以训练这些模型实际上是在与社区的水资源竞争。
我在书里描述了南美洲的一个社区。我去的时候,他们正在经历一场历史性的旱灾。就在那次旱灾期间,市政府不得不开始将有毒的水混入公共供水系统,因为他们没有足够的公共用水。所以很穷的人就在喝有毒的水,而且当时有很多怀孕的女性,她们的流产率更高,因为她们在喝这种水。
方可成:而与此同时,机器却要喝干净的水。
郝珂灵:那时,谷歌提议在那个城市的中心建造一个数据中心,这将消耗大量的纯净水资源。
方可成:为什么会是这些地方呢?明明知道这些地方缺水,为什么还会去这些地方提议要建数据中心呢?
郝珂灵:因为现在基本上没有那么多地方不缺水了,这是一场全球气候危机。其实基本上就是没有足够的地方来满足这些数据中心的需求了。随着AI对资源需求的增加,气候危机也在加速。我们看到这两个轨迹的碰撞,所有这些数据中心现在都建在已经受到气候危机影响的地方。
方可成:你刚才介绍了环境资源上的代价,你在书里也提到了劳工方面的代价,这方面能不能给大家展开介绍一下?
郝珂灵:好的。OpenAI当时选择去训练这些大规模模型的时候,他们也做了另一个选择,就是为了满足大规模AI的数据需求,你必须从使用“干净的数据”转向使用“被污染的数据”,因为没有足够的干净数据。
方可成:什么是干净的和被污染的数据?
郝珂灵:干净数据指的就是,当你建一个数据集的时候,你知道里面是什么,因为那些都是你自己挑选出来的;而被污染的数据指的就是,从网上抓取大批数据,你也不知道里面到底有什么、是谁制造出来的。
方可成:那可能举个例子就是说,如果我选某一份报纸的数据,那我清楚地知道这份报纸上面有什么内容,这就是干净数据;而如果我在一个网络论坛,或者我在微博、Twitter上面随意地抓取一些数据下来,这就是污染数据。
郝珂灵:对的。互联网上什么都有,数据很乱。但你需要大量数据。OpenAI这些公司,它们实际上不知道自己的数据里有什么。当我采访研究人员时,除了数据来源之外,他们说不出数据的内容。
当你从使用干净数据转换到使用污染数据时,你必须开始做内容审核。因为当你在污染数据上训练这些大规模模型时,里面肯定会有很多杂乱的内容,模型就会开始表现得很奇怪,开始说一些有毒、辱骂、仇恨的话,这不会是一个好的消费者体验。
我采访的一个社群是肯尼亚的数据劳工,OpenAI在公司从基础研究转向商业化的时候,雇佣他们来执行这种内容审核。那些肯尼亚劳工,他们日复一日地阅读互联网上最糟糕的内容,试图训练一个过滤器来识别那些内容,然后阻止它被生成给用户。这是一个包裹在GPT模型周围的过滤器,确保用户永远不会接触到有毒内容。但这意味着,数据劳工在这个过程中受到了严重的心理创伤。
……
