姬永锋
23-04-01 08:26 微博认证:财经博主

张亚勤:大模型时代,中国AI行业的机遇与挑战(2)

文章来源于三联生活周刊 ,作者张宇琦

后ChatGPT时代,中国AI产业的机遇

三联生活周刊:百度发布文心一言大模型后,吸引了大量的关注和讨论。实际上,自从ChatGPT推出,很多人就在问,国内什么时候能有一个自己的ChatGPT。中国一定需要能和ChatGPT对标的产品吗?国内大模型中文能力更强的原因可能是什么?

张亚勤:首先,我觉得这种多模态、预训练的大模型,特别是基于Transformer模型的,技术还会向前演进,所以不论是产品还是系统,肯定会出现不止一个。而由于地域的区别和限制,中国会有自己的类似ChatGPT的产品,或者自己的操作系统。就像云一样,美国有至少5个云,中国也有好多云,大家都会存在。

仔细看一下,你会发现ChatGPT中文做得也很好。这点其实很有意思,因为Transformer模型一开始是用于翻译的,在训练的时候就用了各种不同的语言。但它不仅仅是可以用很多语言工作,还在语言映射之间找到了结构,学到了语法、语义。所以,模型被训练的语言越多,其实会越好。如果要做中文大模型,最好里面也有英文和其他语言。

尽管我在百度曾经做过五年总裁,但我对百度目前的产品和技术不了解,所以关于文心一言的细节你要问李彦宏。百度是在2018年就开始做这个大模型(ERNIE),在那前一年,Google发布了Transformer模型(BERT)。百度在人工智能方面的实力最强,投入时间也最长。因为做搜索和推荐最需要AI,它也做各种各样的AI产品,比如小度、无人驾驶、智能云,等等。所以大模型背后的技术是它必然涉及的。我认为ChatGPT的“灯塔效应”使得包括百度在内的很多公司都发力了。中国最终会有多个横向的大模型,百度有先发优势。

图 3月16日,百度公司董事长兼首席执行官李彦宏在“文心一言”发布会上发言(视觉中国 供图)

三联生活周刊:有人会觉得文心一言很明显还不够成熟,推出得有点着急。当然,模型的迭代有赖于人的反馈,很多技术上的考虑,普通人可能之前不是很了解。

张亚勤:我觉得一个产品成熟起来的最好方式,就是让大家使用,用了之后,公司知道了反馈,相当于大家一起帮助这个产品做得更好。事实上,ChatGPT很好的一点就在于,它让整个行业意识到,原来很多不成熟的东西大家是可以接受的。谷歌研发这个东西的时间最长,它为什么不敢推一个产品出来?因为大公司会害怕产品不完善、会犯错,而ChatGPT相当于提供了一个用户的标准。包括ChatGPT为什么是由OpenAI推出来而不是和微软一起发布?其实微软已经一直在产品中集成GPT4.0,看到ChatGPT用户反馈好,微软马上光速推出,但它其实早就可以这么做。但大公司有时候会因为搞不清市场的接受度在哪里,比较谨慎。
图 | OpenAI官网

因为我已经不在百度工作了,细节我不太知道,但我想,百度肯定是在比较之后,认为用户应该是可以接受的。推出之后,显然产品不完美,但是很多人会发现价值,会去使用。所以我觉得,这个推出的时间还是对的。GPT4和微软的搜索结合起来的时候,在美国也有各种各样的调侃。我觉得这些都正常,关键是要看主流是什么,它有没有价值。如果它有问题,也有价值,但价值大于问题,大家就会用。如果都是问题,没什么价值,这个产品自然而然就没人用了。

三联生活周刊:无论用ChatGPT还是文心一言,很多人都热衷于比较中英文回答的差异。一些分析也提出,中文的自然语言处理可能面临数据的局限,互联网上中文语料的数量和质量都不如英文语料。数据会成为中国研发这类大模型的限制吗?

张亚勤:这是个好问题。我不认为目前的模型用尽了所有的数据。现在我们生成的数据基本每一年都要翻倍,速度比摩尔定律要快,这适用于英文也适用于中文。中文语料的绝对数量可能少一些,但我不认为目前是个限制,也不认为以后会成为限制。有两个原因。第一,可以用英文以及别的语言去训练语言模型。第二,以后模型里面的大部分数据未必是语言,输入输出都可以是多模态的,视频、语音都可以放进去做训练。就像我们正在讲话,有语言的交互,但视觉所产生的信息量其实也很大。我们现在看到的数据很多都还是用户自然生成的数据、机器生成的数据,但还有很多关于物理世界的数据,比如说开车,车里产生的数据量每天是TB级别的,生物世界也产生很高量级的数据量。总之,数据量是很大的,我不认为这会是一个大的瓶颈。

但很重要的是,怎么用好数据。ChatGPT能做这么好,其实是在外围花了很多工夫。数据来了之后怎么清洗?怎样做半监督的学习?他们做了很多这类调试,包括在肯尼亚雇了很多人做各种标注、调试,还用了刚才提到的由人类反馈的强化学习,相当于我们每次用它都在反馈。所以,除了最重要的模型训练,这些环节也很重要。

发布于 西藏