新智元 26-01-10 10:31
微博认证:新智元官方微博

#DeepSeekV4或在春节前后发布#
每逢假期,必发新品。

Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。

而这一次,所有目光都聚焦在同一维度上——编程能力。

目标:编程之王。

据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。

超长上下文代码处理:工程师的终极利器

V4的另一个技术突破在于,处理和解析极长代码提示词的能力。

对于日常写几十行代码的用户来说,这可能感知不强。但对于真正在大型项目中工作的软件工程师来说,这是一个革命性的能力。

想象一下:你有一个几万行代码的项目,你需要AI理解整个代码库的上下文,然后在正确的位置插入新功能、修复bug或者进行重构。以前的模型往往会忘记之前的代码,或者在长上下文中迷失方向。

V4在这个维度上取得了技术突破,能够一次性理解更庞大的代码库上下文。

这对于企业级开发来说,是真正的生产力革命。

算法提升,不易出现衰减

据透露,V4在训练过程的各个阶段,对数据模式的理解能力也得到了提升,并且不容易出现衰减。

AI训练需要模型从海量数据集中反复学习,但学到的模式/特征可能会在多轮训练中逐渐衰减。

通常来说,拥有大量AI芯片储备的开发者可以通过增加训练轮次来缓解这一问题。

推理能力提升:更严密、更可靠

知情人士还透露了一个关键细节:用户会发现V4的输出在逻辑上更加严密和清晰。

这不是一个小改进。这意味着模型在整个训练流程中对数据模式的理解能力有了质的提升,而且更重要的是——性能没有出现退化。

在AI模型的世界里,没有退化是一个非常高的评价。很多模型在提升某些能力时,会不可避免地牺牲其他维度的表现。

V4似乎找到了一个更优的平衡点。

最近一周,CEO梁文锋参与合著的一篇论文,也透露出一些线索:

他们提出了一种全新的训练架构,在无需按比例增加芯片数量的情况下,可以Scaling更大规模的模型。

悬念:V4还会有哪些惊喜?

根据目前的信息,我们已经知道V4在编程能力、长上下文处理、推理严密性三个维度上有显著提升。

但DeepSeek向来有低调憋大招的传统。

以下是几个值得关注的悬念:

1.是否会有蒸馏版本?

DeepSeek-R1发布时,同时推出了一系列蒸馏版本,让更多用户可以在消费级硬件上体验强化学习推理模型。

V4是否会延续这一策略?

2.多模态能力如何?

目前的报道主要聚焦于编程能力,但V4在多模态(图像、音频等)方面是否有提升?这是一个未知数。

3.API定价会有惊喜吗?

DeepSeek一直走极致性价比路线。

如果V4的编程能力真的超越Claude,但价格只有Claude的几分之一,那将是对整个市场的巨大冲击。

4.开源策略会变吗?

V3和R1都在MIT许可下开源。

V4是否会延续这一策略?V5、V6呢,DeepSeek会一直开源下去吗?

考虑到编程领域的商业价值,这是一个值得观察的变量。