张亚勤:大模型时代,中国AI行业的机遇与挑战(1)
文章来源于三联生活周刊 ,作者张宇琦
“经过这两次大的产业升级之后,中国在数字化支付、网络、用户终端,基本上都和美国在同一阵线,比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面,现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员,一旦把资源集中,并且有耐心,是可以赶上的。有很多挑战,但我还是充满信心。”
尽管中国是ChatGPT未开放服务的区域之一,但2023年2月初,在ChatGPT正式发布两个月后,这一聊天机器人程序在中国的热度开始走高——与之相关的话题多次登上社交媒体热搜榜单,A股市场上ChatGPT概念股板块历经多番涨停潮,百度、阿里、京东、网易等科技公司相继宣布推出或研发对标产品的计划。
在ChatGPT和同类产品引发持续热议的当下,大模型技术正在触发IT行业怎样的变革?我们应该如何理解“中国版ChatGPT”的意义?在新一轮行业爆发期,中国AI产业会面临怎样的挑战与机遇?就这些问题,本刊专访了清华大学智能科学讲席教授、智能产业研究院(AIR)院长、中国工程院院士张亚勤。
图 清华大学智能产业研究院(AIR)院长、中国工程院院士张亚勤(受访者 供图)
在学术界和工业界,以及人工智能前沿研究与产业应用领域,张亚勤都有着堪称辉煌的履历。他在1997年成为IEEE(电气电子工程师学会)历史上获授会士荣誉最年轻的科学家;自上世纪90年代末起,曾在微软公司工作16年,历任微软亚洲研究院院长兼首席科学家、微软中国董事长等职位;在2014年9月到2019年10月之间担任百度公司总裁。2019年底,张亚勤正式受聘于清华大学,牵头组建清华大学智能产业研究院(AIR)。
大模型重构行业生态
三联生活周刊:ChatGPT的出圈代表了大模型的第一次成功吗?
张亚勤:如果ChatGPT是指的一个产品,那它是大模型产品化和大众化的最大成功。大模型已经做了多年了,2020年GPT3.0的出现可以算是大模型的第一次成功。只不过那个模型更多是给专业人员用的,但在技术界已经有很大的震动。ChatGPT第一次有一个界面让普通用户使用。去年12月初,它刚刚出来的时候,我也注册了,简单用了一下,第一感觉是做得真好,会出很多错,但语言能力很强,后面又看到它很大的进步。实际上,从GPT3.0到GPT3.5,做了两年多,算法本身当然改进很多,但数据工程和系统工程尤其成功。算法里很大的改善是InstructGPT以及多了有人类反馈的强化学习(reinforcement learning from human feedback),用的人越多,迭代越快。那么现在GPT4就更不得了,功能比GPT3.5大多了。
但对我来说,ChatGPT更大的震撼在于它如此受欢迎!不到两个月的时间就有了上亿个月活用户。其实生成式AI,在过去这两年是进展最快的技术。比如在AI作图方面,有DALL-E、Midjourney、Stable Diffusion这些产品出来。我们学院也研究这类技术,比如自动驾驶的仿真模拟,也需要在机器人里面做生成,学生也发表了这方面的论文。总之,这个领域发展十分快,但没有感觉跳变。
而ChatGPT确实是一次跳跃和质变,是AI的一个里程碑。人机对话已经做了半个多世纪了,进步很大,但整体没有实质性的飞跃,主要应用在某些垂直领域(比如聊天、客服等),整体感觉更多是玩具和工具,是个机器人,不能通过“图灵测试”。但ChatGPT是第一个可以通过“图灵测试”的智能体,我看到一个通用人工智能的雏形。
图 《她》剧照
三联生活周刊:在整个职业生涯中,你还经历过哪些类似的新技术爆发的时刻?
张亚勤:类似的让我感到震撼的经历有几个。一次是1986年,我刚到美国的时候,第一次用了苹果Macintosh电脑。因为之前在国内,我们最初用的还是字符型的输入,一行一行、一闪一闪的。到了美国之后,在学校的系里面第一次看到了带鼠标的电脑,看到它显示得如此之清楚、漂亮。那时就感觉到,哇,原来电脑还可以这么做,图形无界面,可以把鼠标放在任何地方,相当于立体化了。不仅仅能打字符,还可以用来画图。特别是出国前我们申请学校时,每天还在用打字机打表格,一张一张地打,感觉很困难。到了美国看到这样一个界面,完全是一个全新的体验。
还有一次体验是90年代初期,那时我在Sarnoff(注:美国桑纳福研究院,现SRI研究院)。当时我们在做高清数字电视,做视频压缩。我们第一次把所有系统集成在一起,加上5.1的立体声关在一个黑屋子里,放了15分钟SONY高清摄像机专门拍的高尔夫比赛/滑雪片段视频,雪花和高尔夫球是那样清晰,色彩是那样鲜艳,大家都震撼于电视还可以这么清楚。那时候有很多人,包括政策制定者,反对数字电视,但那15分钟放完,大家从黑屋子里走出来,都改变想法了。
再有就是2016年AlphaGo出来的时候。我自己也下围棋,之前我不相信AlphaGo可以赢李世石,即使要赢,我想可能还需要至少5年左右。因为这是人类最难、最复杂的棋类,虽然我已经在做AI,我还是没法相信它能赢了世界最优秀的九段。那次确实是第一次感受到AI的强大。
三联生活周刊:过去相当长一段时间,科技圈似乎都在等待下一个颠覆性的技术。人工智能行业内也经历了所谓的寒潮。现在可以说这种停滞过去了?
张亚勤:对。2016年AlphaGo让大家都感到AI很厉害的时候,人脸识别、语音识别其实已经比较成熟,但大家仍然感觉AI只能做一件事。自动驾驶给人的感觉很酷,但一直没变成一个主流的东西。包括搜索也用了很多AI技术,但大家可能感觉不到。总之,普通老百姓没有感受到AI给生活带来什么改变。但这次大家发现,可以跟它直接对话了,它什么都知道,虽然有时候胡说八道,有时候说废话和套话,但人也会这样。而且它很多地方做得比普通人要好,比如写东西很顺畅,语法也很正确,还可以帮你写程序、规划任务,在认知层有了很大提升,开始有了通用人工智能的雏形。
图 《机器纪元》剧照
我们一直在探索,哪条技术路线会走向通用人工智能。GTP3.0出来的时候,我们有一批人感觉到,大数据和超大模型可能是一个正确的方向,ChatGPT和GPT4.0+ 给大家带来了信心。规模效应很重要。因为模型会自己进行in-context learning(上下文学习),这在规模不够大的时候看不出效果,但到一定规模会产生一些我们不知道的现象和能力。就像互联网,当年Metcalfe(今年的图灵奖获得者)定律提出,把N个人连在一块,创造的效益是N的平方,呈指数型增长。模型的规模效益也是如此。
三联生活周刊:大模型这条路走通后,会给整个AI行业带来什么?
张亚勤:我觉得可以把GPT这个系列的生成式AI模型看作一个由大模型组成的AI操作系统,和PC上的Windows,以及移动的安卓、iOS基本具有相似的意义。一个新的操作系统出来是什么意思?下面的硬件、上面的应用都会被重构、重塑,形成一个新的生态。如果说PC互联网的生态价值是1X,移动互联网的生态价值至少是10X,那么AI生态至少是100X。
图 在山东国瓷功能材料股份有限公司,员工用AI工业视觉识别品质检测系统操控蜂窝陶瓷颗粒捕捉器对产品进行质量检测(周广学 摄 / 视觉中国)
PC时代,底层用的是英特尔的x86,在Windows上建立了许许多多的应用,也因此被叫作温特尔(WinTel)时代。到了移动时代,Android和iOS的底层硬件都是ARM系统,上面是各种不同的APP(应用软件)。当然,APP公司本身可能变成巨大的公司,比操作系统更大,比如微信和TikTok这样的Super APP(超级软件)。
到现在这个云计算的时代,硬件有GPU、CPU、FPGA、ASIC,操作系统就是AI大模型,或许可以叫它GPTx或者基础模型(Foundation Model,FM)。在AI还没发展到这个阶段的时候,有很多算法、模型、框架等,现在有了FM,你可以做各种各样的应用开发:大模型上层还会有小模型,还可以有插件,和现有的APP组合在一块。微软目前在这方面做得最好,把能力组合到了搜索、Office和Azure云等每一个产品。
三联生活周刊:这样一个新的生态,已经在很快地形成了?
张亚勤:对,但我也不认为马上就定了。在美国的话,OpenAI和微软抢先了一步,但是谷歌实力也很强,因为这里面其实很多最核心的技术是谷歌发明的。微软和谷歌这两家公司目前可能在全球领先所有人,无论是规模效应也好,还是应用场景、算法的成熟程度和产品的生态。当然英伟达的GPU芯片和架构最有竞争力。那么在中国的话,百度应该是走在最前面的。
三联生活周刊:百度的CEO李彦宏在大模型产品文心一言的发布会上也提到,之前云计算行业比拼的是厂家的算力,以后可能会更看中模型本身。
张亚勤:对,大模型变成操作系统之后,就形成了一个抽象层,开发者和用户对下面用什么就不太关心了。比如你现在用电脑还会在乎下面是什么芯片吗?无论算力多少、存储多少,基本就被这个操作系统隔离了,你更关心的是模型能提供什么功能。所以对云公司来讲,这也是重塑云的时刻。
三联生活周刊:还有一种挺普遍的看法,认为生成式对话产品会颠覆搜索引擎现有的商业模式,科技公司不得不自我革命。你也会这么认为吗?
张亚勤:我觉得不是。要是你没有这个产品的话,别人会革你的命。我们在搜索的时候,其实是在找知识,那现在有了生成式技术,它确实提供了一种找到知识的新能力。所以没办法,新技术来的时候,一个公司说我没有,那只能说太糟了。
但是有这个技术的话,生成本身又需要花很多钱,这也是谷歌遇到的问题。谷歌在搜索市场占有93%的份额,微软只占3%,那3%的份额加点东西可能没关系,93%的份额就要用很多算力,就会影响利润。从这个角度说,所谓的颠覆市场可能是因为,我们俩做一模一样的生意,但你谷歌的份额太高了,要比我(微软)的成本高得多,微软等于没什么可失去的。在中国的话,百度可能会有优势,因为它正好搜索和人工智能都很强,短期里挑战它的公司不太多。但我想,有公司挑战不是坏事,还是需要一些竞争的。
图 《机械姬》剧照
