中国大模型性能超美国希望

#DeepSeek致谢近300研发者10人已离职#
首次从技术原理上看到了中国大模型性能超过美国的希望

1. 我说的不是DeepSeek V4。它本身的Agent性能，发布时就如实报告了，还不如Claude Opus 4.6思考模式。新闻关注度很高，我去学习了技术原理。非常振奋，首次看到了中国大模型性能超过美国的希望。不是口号式的“一定胜利”，而是基于技术指数发展的短期可能性评估。

2. 需要一些业界常识。现在Claude Opus 4.6成了中国大模型研发的头号目标，没有之一。是Anthropic在2026年2月5日发的，主打复杂推理、编码与Agent能力。现在评分参考意义不足，要看实际任务的口碑。目前中国大模型实用还不如，是最大的短期追赶目标，没有之一。好消息是差距只有2-3个月，是几年来中国大模型与美国时间差距最小的一次。

3. 2022年末ChatGPT出来，中国落后约一年。2023年中国公司都在突破一个技术障碍：预训练（pre-train）。OpenAI选择闭源，没有公布技术细节。Meta的Llama开源起了很大作用，2023年2月Llama 1（7B–65B）、7月发布的 Llama 2（7B–70B），首次以可复现的工业级标准，展示了数据配比、架构微调、训练效率、Scaling law验证等技术细节。个人认为，这是对中国自主研发最重要的一次“第一推动”，特别是7月这次，许多中国团队仔细琢磨这些细节，建立研发流程，跑通原型，后面都在努力范围之内了。当时比较突出的是Qwen，在开源路线上不断优化训练数据、扩大参数数量、多模态。

4. 2023年起中国公司就算力不足，十分重视优化提升效率，被逼走最底层优化的路线。Llama开源的是Dense架构，所有参数都激活计算，扩大规模吃算力，必须大改。DeepSeek注重从底层去修改模型架构、数据结构、CUDA调用、存储。Kimi主打长文本路线，也有底层能力。这需要积累，2023-2024年没有太大影响，直到2024年末DeepSeek V3才在技术圈引发一些赞赏。最关键技术是MoE(Mixture of Experts，混合专家模型)，总参数几千亿，一次激活几百亿规模的专家参数，算力压力大降。还有非常巧妙的MLA（Multi-head Latent Attention，多头潜在注意力机制）。这类精细架构创新，中国公司比美国公司强，做不好就没戏。美国公司有思想，但不会有压力去精细结构创新、跑通，算力不够可以买，不是非得做好。

5. 2024年，OpenAI继续引领业界风气，焦点转向了“后训练”（post-train），在pre-train的基础上，通过RL（强化学习）增强能力，思维链极大增加推理能力。这条路线，DeepSeek R1在2025年初震惊世界，而且将所有技术细节开源，极大促进了开源社区的实力。从此，许多中国公司明白要怎么做了，都来开源贡献好的想法。例如DeepSeek V4技术报告里引用 Kimi 的Muon优化器论文。出了个关键的大利好：训练算力不是瓶颈了，这是中国公司合力优化做到极致的结果。中国最缺的是推理算力，用户一多肯定崩，再怎么优化都没用。训练算力是够的，当然越多越好，但省着用不会卡住。

6. 两个阶段都是OpenAI最强。但2025年下半年起，风头转到Anthropic了。Claude Code 2025年2月发布开始，5月代码能力跃升，10月Web版上线进入大众开发者视野，彻底火了。业界都知道OpenAI方向错了麻烦了，Anthropic估值上万亿美元赶超了，几家大公司都更看好它。2026年初OpenClaw引爆舆论关注，开始时底层是Claude。

7. Anthropic从2024年起赌对了编程方向，当时Sonnet系列已经有口碑了。事后看，Code是绝佳突破口，唯一能提供海量“长文本”训练。但带歪方向的是，Code又高度可验证，类似数学，DeepSeek R1数学和编程不错。各家主要关注编程的结果，小球在框里转怎么模拟。实际上，更有意义的是“长文本”（long context），和背后的大概念：Agent。编程需要不断改代码调试，是典型的Agent过程，和做数学题不一样，不是逻辑验证。

8. 人们听过Agent无数次，概念上多半稀里糊涂。与它对应的是Chat，单次推理，加上RAG搜索增强、思维链也还是。Agent是“自主规划-执行-反思”的闭环，有工具参与，例如模型写Python代码、运行看结果、发现异常、调试代码、再运行、确认无误后给结论。还有Agent集群，可以让多个不同大模型扮演各类角色，配合完成任务。Agent覆盖了人类最高智慧。最强的是，Code任务训练出的Agent能力，可以泛化到无数领域！Claude 2026年屠杀了多个领域。

9. 好消息是，Agent训练原理没有秘密了，中国公司训练算力也够！当然推理能把算力吃死，要跑很多轮，没钱的不敢用Claude Opus，一天几百、上千美元没了。Agent训练就是反馈迭代，Claude积累时间最长有优势。这方面中国公司想招精心优化、快速迭代的优势更大，算力少反而有优势，很快就能反超美国了。美国优势就只是推理算力多得多，物理上的优势，模型不会有优势了。这有很多技术细节，个人认为，未来对于中国开发高手已经畅开了，不再有任何硬限制，进入了快速迭代的自由王国。中国优势是高水平团队众多、开源合作、技术扩散，开源击败闭源。

发布于广东