风云学会陈经 26-04-26 11:47
微博认证:亚洲视觉科技 研发总监 2024微博年度新知博主 长文原创作者 财经观察官

#DeepSeek致谢近300研发者10人已离职#
首次从技术原理上看到了中国大模型性能超过美国的希望

1. 我说的不是DeepSeek V4。它本身的Agent性能,发布时就如实报告了,还不如Claude Opus 4.6思考模式。新闻关注度很高,我去学习了技术原理。非常振奋,首次看到了中国大模型性能超过美国的希望。不是口号式的“一定胜利”,而是基于技术指数发展的短期可能性评估。

2. 需要一些业界常识。现在Claude Opus 4.6成了中国大模型研发的头号目标,没有之一。是Anthropic在2026年2月5日发的,主打复杂推理、编码与Agent能力。现在评分参考意义不足,要看实际任务的口碑。目前中国大模型实用还不如,是最大的短期追赶目标,没有之一。好消息是差距只有2-3个月,是几年来中国大模型与美国时间差距最小的一次。

3. 2022年末ChatGPT出来,中国落后约一年。2023年中国公司都在突破一个技术障碍:预训练(pre-train)。OpenAI选择闭源,没有公布技术细节。Meta的Llama开源起了很大作用,2023年2月Llama 1(7B–65B)、7月发布的 Llama 2(7B–70B),首次以可复现的工业级标准,展示了数据配比、架构微调、训练效率、Scaling law验证等技术细节。个人认为,这是对中国自主研发最重要的一次“第一推动”,特别是7月这次,许多中国团队仔细琢磨这些细节,建立研发流程,跑通原型,后面都在努力范围之内了。当时比较突出的是Qwen,在开源路线上不断优化训练数据、扩大参数数量、多模态。

4. 2023年起中国公司就算力不足,十分重视优化提升效率,被逼走最底层优化的路线。Llama开源的是Dense架构,所有参数都激活计算,扩大规模吃算力,必须大改。DeepSeek注重从底层去修改模型架构、数据结构、CUDA调用、存储。Kimi主打长文本路线,也有底层能力。这需要积累,2023-2024年没有太大影响,直到2024年末DeepSeek V3才在技术圈引发一些赞赏。最关键技术是MoE(Mixture of Experts,混合专家模型),总参数几千亿,一次激活几百亿规模的专家参数,算力压力大降。还有非常巧妙的MLA(Multi-head Latent Attention,多头潜在注意力机制)。这类精细架构创新,中国公司比美国公司强,做不好就没戏。美国公司有思想,但不会有压力去精细结构创新、跑通,算力不够可以买,不是非得做好。

5. 2024年,OpenAI继续引领业界风气,焦点转向了“后训练”(post-train),在pre-train的基础上,通过RL(强化学习)增强能力,思维链极大增加推理能力。这条路线,DeepSeek R1在2025年初震惊世界,而且将所有技术细节开源,极大促进了开源社区的实力。从此,许多中国公司明白要怎么做了,都来开源贡献好的想法。例如DeepSeek V4技术报告里引用 Kimi 的Muon优化器论文。出了个关键的大利好:训练算力不是瓶颈了,这是中国公司合力优化做到极致的结果。中国最缺的是推理算力,用户一多肯定崩,再怎么优化都没用。训练算力是够的,当然越多越好,但省着用不会卡住。

6. 两个阶段都是OpenAI最强。但2025年下半年起,风头转到Anthropic了。Claude Code 2025年2月发布开始,5月代码能力跃升,10月Web版上线进入大众开发者视野,彻底火了。业界都知道OpenAI方向错了麻烦了,Anthropic估值上万亿美元赶超了,几家大公司都更看好它。2026年初OpenClaw引爆舆论关注,开始时底层是Claude。

7. Anthropic从2024年起赌对了编程方向,当时Sonnet系列已经有口碑了。事后看,Code是绝佳突破口,唯一能提供海量“长文本”训练。但带歪方向的是,Code又高度可验证,类似数学,DeepSeek R1数学和编程不错。各家主要关注编程的结果,小球在框里转怎么模拟。实际上,更有意义的是“长文本”(long context),和背后的大概念:Agent。编程需要不断改代码调试,是典型的Agent过程,和做数学题不一样,不是逻辑验证。

8. 人们听过Agent无数次,概念上多半稀里糊涂。与它对应的是Chat,单次推理,加上RAG搜索增强、思维链也还是。Agent是“自主规划-执行-反思”的闭环,有工具参与,例如模型写Python代码、运行看结果、发现异常、调试代码、再运行、确认无误后给结论。还有Agent集群,可以让多个不同大模型扮演各类角色,配合完成任务。Agent覆盖了人类最高智慧。最强的是,Code任务训练出的Agent能力,可以泛化到无数领域!Claude 2026年屠杀了多个领域。

9. 好消息是,Agent训练原理没有秘密了,中国公司训练算力也够!当然推理能把算力吃死,要跑很多轮,没钱的不敢用Claude Opus,一天几百、上千美元没了。Agent训练就是反馈迭代,Claude积累时间最长有优势。这方面中国公司想招精心优化、快速迭代的优势更大,算力少反而有优势,很快就能反超美国了。美国优势就只是推理算力多得多,物理上的优势,模型不会有优势了。这有很多技术细节,个人认为,未来对于中国开发高手已经畅开了,不再有任何硬限制,进入了快速迭代的自由王国。中国优势是高水平团队众多、开源合作、技术扩散,开源击败闭源。

发布于 广东