有点儿西东 26-01-21 09:48
微博认证:AI博主

🚨 DeepSeek 新模型「MODEL1」曝光,最快2月发布

DeepSeek 新模型「MODEL1」昨天在 GitHub 上曝光了。

1 月 20 日,正好是 DeepSeek-R1 发布一周年。有开发者在 DeepSeek FlashMLA 代码仓库的更新里发现「MODEL1」这个标识符,出现在 114 个文件中的 28 处。

代码把「MODEL1」和现有的「V32」(也就是 DeepSeek-V3.2)并列对待,而且两者在实现上明显不同。

具体差异主要在三个地方。

KV 缓存的内存布局变了,物理排布更紧凑。
稀疏性处理方式做了调整。
还有对 FP8 数据格式的解码支持也升级了。

这些改动都指向内存优化和推理效率的提升。据此判断,这不是 V3 系列的补丁,而是全新架构。

早些时候 The Information 报道过,DeepSeek 计划在 2 月中旬,也就是农历新年前后,推出下一代旗舰模型 DeepSeek V4,重点加强写代码能力。

内部测试显示它在编程任务上可能超过 Claude 和 GPT 系列。现在代码里冒出「MODEL1」,这很可能就是 V4 的内部代号,或者至少是它的一部分。

DeepSeek 从 V3 开始就注重高效推理,这次更新又一次证明他们在内核层面持续迭代。FlashMLA 本来就是为 V3 和 V3.2 优化的注意力内核,现在适配新模型,说明新架构对计算和内存需求有针对性设计。

距离 2 月发布只剩下三四个星期。如果「MODEL1」真是 V4,那开源社区又要迎来一次大更新。

#AI资讯# #AI趋势# #DeepSeek# #国产模型# #DeepSeek[超话]#

发布于 山东