麻省理工科技评论 26-02-11 19:49
微博认证:《麻省理工科技评论》杂志官方微博

【刚刚,DeepSeek悄悄测试新模型:百万token上下文、知识库更新,V4要来了?】

春节假期还没到,#DeepSeek# 就先把礼物拆了一半。

2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述的上下文长度均为“1M”。

与此同时,知识截止日期也从此前的版本更新到了 2025 年 5 月,在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过,这个新版本目前仍然是一个纯文本模型,不支持视觉输入,也不具备多模态识别能力。

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板,本次提升至 1M 级别可谓进步巨大,此前,Google 的 #Gemini# 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度,算是在这个维度上跻身第一梯队。

值得注意的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在注意力解码核心库)更新中,社区开发者发现了一个代号为“Model 1”的神秘模型标识,它在 114 个文件中出现了 28 次,作为独立于当前 V3.2 架构的并行分支存在。

戳链接查看详情:http://t.cn/AX5F9FVv