开源促进中国大模型发展

为什么要开源？
这个里面有很多好处，比如说可以构建生态，降低推广成本等等。
今天从另外一个角度说一说，就说说模型的训练。

其实开源对中国大模型的发展促进非常大，甚至可以说是决定性因素。

2022年11月30号，chatgpt爆火，但是就国内来说，没有多少团队训练过这么大的模型，可能连7B这么大的模型都没训练过。
可能智谱搞得早，有一些这方面的经验，如果我没记错的话，他们原来是BERT那个路线。

当时资料非常少，懂的人也少。
2023年2月左右，meta发布了llama1，这个是开源的。
虽然这个模型不怎么样，但是这就让国内创业团队、各个公司初步认识到训练模型具体是咋玩的。

2023年7月19日，meta发布了llama2，这是一个转折点，就是你只要按照它这个架构，可以训练出很大的模型，70B是没啥问题的。
llama真是早期的“奶妈”，是一个脚手架，这让很多人可以玩起来。

然后，很多点子就被激发出来了，各个公司都在架构上有自己的想法和创新。
比如说Qwen，很早就开始做开源模型了，这为各个研究者提供了一个试验的框架。
这是功不可没的。

deepseek的贡献比较大，可以说是决定性的。
他们参透了o1那种长思考模式，独立做出了成果，并且把整个过程和架构公布于众。
同时，还公开了很多基础设施的源码。

这个让国内、国外的研究者在模型的训练上取得的飞跃般的进展。
这个开源的风气也被带起来了。

很多公司参考了deepseek那个架构，就是比较稳。
kim对外开源了Muon优化器等技术，也是很不错的。
智谱、minimax也大量开源，各个公司参考学习，共同进步。

现在国产模型，已经迈过了1T规模的门槛。
如果论参数量的话，在1T这个规模上，国产模型可以说是无敌的。
claude等一些模型，可能比国产模型好，但是参数很可能是大于1T的。

开源，可以说大大加速了各个公司的研究进度。
如果没有开源，不会有这么快。

就目前而言，无论是从理论还是事实来看，训练大模型，已经没有秘密。
美团、京东、小米原本并不擅长大模型的，目前进展都很不错。
只要有2-3个懂的人，再带几百个悟性高的新手，有一定的卡，就能训练出来。

这就是开源的作用。

虽然训练大模型没有秘密，但是创新，还是有秘密的。
可能将来不知道又搞出什么创新来。

很多人说美国创新风气好，但是在AI领域，这个倒过来了。
中国大量开源，创新动力很强，美国的大模型，基本都是闭源的。

如果国产模型，用少得多的算力，达到了同样甚至更优的效果。
就不知道openai，anthropic那么高的估值，能不能撑得住?

#国产开源大模型下载量破100亿次#

发布于江苏