莫说闲话-莫大
26-06-14 18:50 微博认证:汽车博主

余承东说要做大模型第一,这话听着有点奇怪。

不评价他,聊聊现状吧。

在 deepseek R1 之前,我感觉国内大模型一直处于落后状态,大多数是走的 llama 架构,几乎无超车的可能性。

但DeepSeek R1出来之后,整个局面变了,大家突然发现,开源模型这条路真的走得通, qwen kimi glm minimax各家用 deepseek style 的注意力机制直接跑起来了。

现在在榜单上跟OpenAI、Anthropic、Google打得有来有回, 后来也搞出来了自己的架构,比如deepseek-style mla + dsa这的那的,具体我不太懂但是只是懂个大概。

为什么会这样?因为 deepseek 足够大方,把技术细节事无巨细的写了出来,论文嗷嗷的发,然后气氛起来了,整个开源环境足够开放,因为大家互通有无,大家都把第一时间开放作为一个成就点。

梁文峰同志曾经在采访中说,开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。

从这个角度看 ds v4 的技术文档,详细的吓人,里面足够谦虚,各种承认不足,各种对比差距,也正视了挑战。。

从这个角度看,deepseek 都没喊第一第一二的,因为太俗了,追求 AGI 才是科研人的顶级追求,百家争鸣才是正道。

梁文峰的态度一直很明确:做好技术,开源共享,让整个生态一起往前走。

这种格局,比喊口号实在多了。

所以这就回到余总的话上面,我只能勉强的认为,华为需要一个叙事,盘古大模型需要市场信心,研发团队需要共识性的目标。

都没错,但是我更相信梁文峰的态度。

#莫说闲话##余承东称盘古大模型会走向世界第一#

发布于 北京