【揭秘#DeepSeek#：一个更极致的中国技术理想主义故事】在硅谷，DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为，2024年发布的DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”，并将其训练设置应用于自己的模型。而OpenAI前政策主管、

【揭秘#DeepSeek#：一个更极致的中国技术理想主义故事】在硅谷，DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为，2024年发布的DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”，并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为，DeepSeek“雇佣了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量。”

在基本由硅谷牵动故事进展的AI浪潮里，这是罕有的情形。多位行业人士告诉我们，这种强烈的反响源自架构层面的创新，是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。一位AI研究者表示，Attention架构提出多年来，几乎未被成功改过，更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头，因为大部分人都缺乏信心。”

而另一方面，国产大模型之前很少涉足架构层面的创新，也是因为很少有人主动去击破那样一种成见：美国更擅长从0-1的技术创新，而中国更擅长从1-10的应用创新。何况这种行为非常不划算——新一代模型，过几个月自然有人做出来，中国公司只要跟随、做好应用即可。对模型结构进行创新，意味着没有路径可依，要经历很多失败，时间、经济成本都耗费巨大。

DeepSeek显然是逆行者。在一片认为大模型技术必然趋同，follow是更聪明捷径的喧哗声中，DeepSeek看重“弯路”中积累的价值，并认为中国的大模型创业者除应用创新外，也可以加入到全球技术创新的洪流中。

一年前，DeepSeek刚下场时，创始人梁文锋接受了媒体采访，以下为部分对话：

「暗涌」：互联网和移动互联网时代留给大部分人的惯性认知是，美国擅长搞技术创新，中国更擅长做应用。

梁文锋：我们认为随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降，躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。

但其实，这是西方主导的技术社区一代代孜孜不倦创造出来的，只因为之前我们没有参与这个过程，以至于忽视了它的存在。

「暗涌」：为什么DeepSeek V2会让硅谷的很多人惊讶？

梁文锋：在美国每天发生的大量创新里，这是非常普通的一个。他们之所以惊讶，是因为这是一个中国公司，在以创新贡献者的身份，加入到他们游戏里去。毕竟大部分中国公司习惯follow，而不是创新。

「暗涌」：但这种选择放在中国语境里，也过于奢侈。大模型是一个重投入游戏，不是所有公司都有资本只去研究创新，而不是先考虑商业化。

梁文锋：创新的成本肯定不低，过去那种拿来主义的惯性也和过去的国情有关。但现在，你看无论中国的经济体量，还是字节、腾讯这些大厂的利润，放在全球都不低。我们创新缺的肯定不是资本，而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

「暗涌」：为什么中国公司——包括不缺钱的大厂，这么容易把快速商业化当第一要义？

梁文锋：过去三十年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。我们只是被过去那种惯性束缚了，但它也是阶段性的。

「暗涌」：但你们究竟是一个商业组织，而非一个公益科研机构，选择创新，又通过开源分享出去，那要在哪里形成护城河？像5月这次MLA架构的创新，也会很快被其他家copy吧？

梁文锋：在颠覆性的技术面前，闭源形成的护城河是短暂的。即使OpenAI闭源，也无法阻止被别人赶超。所以我们把价值沉淀在团队上，我们的同事在这个过程中得到成长，积累很多know-how,形成可以创新的组织和文化，就是我们的护城河。

开源，发论文，其实并没有失去什么。对于技术人员来说，被follow是很有成就感的事。其实，开源更像一个文化行为，而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。http://t.cn/A63CRkfq