为什么要开源?
这个里面有很多好处,比如说可以构建生态,降低推广成本等等。
今天从另外一个角度说一说,就说说模型的训练。
其实开源对中国大模型的发展促进非常大,甚至可以说是决定性因素。
2022年11月30号,chatgpt爆火,但是就国内来说,没有多少团队训练过这么大的模型,可能连7B这么大的模型都没训练过。
可能智谱搞得早,有一些这方面的经验,如果我没记错的话,他们原来是BERT那个路线。
当时资料非常少,懂的人也少。
2023年2月左右,meta发布了llama1,这个是开源的。
虽然这个模型不怎么样,但是这就让国内创业团队、各个公司初步认识到训练模型具体是咋玩的。
2023年7月19日,meta发布了llama2,这是一个转折点,就是你只要按照它这个架构,可以训练出很大的模型,70B是没啥问题的。
llama真是早期的“奶妈”,是一个脚手架,这让很多人可以玩起来。
然后,很多点子就被激发出来了,各个公司都在架构上有自己的想法和创新。
比如说Qwen,很早就开始做开源模型了,这为各个研究者提供了一个试验的框架。
这是功不可没的。
deepseek的贡献比较大,可以说是决定性的。
他们参透了o1那种长思考模式,独立做出了成果,并且把整个过程和架构公布于众。
同时,还公开了很多基础设施的源码。
这个让国内、国外的研究者在模型的训练上取得的飞跃般的进展。
这个开源的风气也被带起来了。
很多公司参考了deepseek那个架构,就是比较稳。
kim对外开源了Muon优化器等技术,也是很不错的。
智谱、minimax也大量开源,各个公司参考学习,共同进步。
现在国产模型,已经迈过了1T规模的门槛。
如果论参数量的话,在1T这个规模上,国产模型可以说是无敌的。
claude等一些模型,可能比国产模型好,但是参数很可能是大于1T的。
开源,可以说大大加速了各个公司的研究进度。
如果没有开源,不会有这么快。
就目前而言,无论是从理论还是事实来看,训练大模型,已经没有秘密。
美团、京东、小米原本并不擅长大模型的,目前进展都很不错。
只要有2-3个懂的人,再带几百个悟性高的新手,有一定的卡,就能训练出来。
这就是开源的作用。
虽然训练大模型没有秘密,但是创新,还是有秘密的。
可能将来不知道又搞出什么创新来。
很多人说美国创新风气好,但是在AI领域,这个倒过来了。
中国大量开源,创新动力很强,美国的大模型,基本都是闭源的。
如果国产模型,用少得多的算力,达到了同样甚至更优的效果。
就不知道openai,anthropic那么高的估值,能不能撑得住?
#国产开源大模型下载量破100亿次#
发布于 江苏
