DeepSeek与Kimi技术突破

DeepSeek V3不是一天炼成的。其背后的幻方量化基因，决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里，他们游离于主流叙事之外，潜心自研 MLA（多头潜在注意力机制）与 DeepSeekMoE 架构，试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己，也给其他AI创业公司带来信心。

所有人都在期待 DeepSeek 的下一代模型继续惊艳全场，但媒体上三番五次的「狼来了」把戏只会消磨大家的注意力。技术突破，哪是那么容易的事情，我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型，被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型，用来验证下一代二阶优化器技术，并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam，成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。

正所谓，「出来混，总要还的。」Kimi 在2024年提前享受了C位和曝光，2026年没再复现该属于自己的流量。

各有各的命。

作为两家几乎同时起步的创业公司，我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

即使站在 2026年3月底这个时间节点看，2022年底开始的这场AI革命也才进行了3年半的时间，一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司？ http://t.cn/AXIf4j2h

发布于北京