从国外AI的发展来看,语料的作用还是真的很大的。
谷歌其实最早在这场AI竞争中是落后方,当ChatGPT3.0红遍整个网络世界的时候,谷歌甚至拿不出一个自己的AI大模型来(虽然其实它AI起步比谁都早),当时整个市场认为AI对于谷歌的冲击是最严重的,因为AI很可能很大程度上替代谷歌的核心资产网络搜索的的位置。
但很快谷歌开始多条腿走路,先是和亚马逊等巨头一起投资Anthropic的Claude;然后自己研发闭源AI Gemini 和开源的Gamma 。其中Gemini 成为了目前AI里风评最好的大模型,而且其搜索信息的准确性非常高,可以说很好的辅助了自家的搜索平台。
谷歌最重要的依托是什么?就是它现有的全世界最大庞大的搜索资源库和语料库,给其AI提供了丰富而完整的语料,这一点是其他大模型所无法拥有的。其训练的结果明显要好于其他模型关键原因也在于此。人类大部分的智慧在短时间内经过训练被整合进了AI的思维回路中,这才是关键。
相对于特定使用者比如程序员们比较重视推理能力而言,一般普通的AI使用者其实更注重的是结果的准确性,而这就更需要大规模的训练和丰富、精准的语料库,这方面没有捷径可以走的。
当然简体中文里,似乎百度也拥有巨量的语料库,但是准确性么...........
发布于 江苏
