阑夕 26-03-30 18:30
微博认证:逐鹿网(www.zhulu.com)创始人 长文原创作者 2024微博年度新知博主

DeepSeek V3不是一天炼成的。其背后的幻方量化基因,决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里,他们游离于主流叙事之外,潜心自研 MLA(多头潜在注意力机制) 与 DeepSeekMoE 架构,试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己,也给其他AI创业公司带来信心。

所有人都在期待 DeepSeek 的下一代模型继续惊艳全场,但媒体上三番五次的「狼来了」把戏只会消磨大家的注意力。技术突破,哪是那么容易的事情,我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型,被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型,用来验证下一代二阶优化器技术,并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam,成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。

正所谓,「出来混,总要还的。」Kimi 在2024年提前享受了C位和曝光,2026年没再复现该属于自己的流量。

各有各的命。

作为两家几乎同时起步的创业公司,我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

即使站在 2026年3月底这个时间节点看,2022年底开始的这场AI革命也才进行了3年半的时间,一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司? http://t.cn/AXIf4j2h

发布于 北京