DeepSeek测试百万token新模型

【刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？】

春节假期还没到，#DeepSeek# 就先把礼物拆了一半。

2 月 11 日，多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级：上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M（百万）token。DeepTech 验证后确认，无论 App 还是网页端，模型自述的上下文长度均为“1M”。

与此同时，知识截止日期也从此前的版本更新到了 2025 年 5 月，在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过，这个新版本目前仍然是一个纯文本模型，不支持视觉输入，也不具备多模态识别能力。

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板，本次提升至 1M 级别可谓进步巨大，此前，Google 的 #Gemini# 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度，算是在这个维度上跻身第一梯队。

值得注意的是，就在不到一个月前，DeepSeek 的 GitHub 仓库 FlashMLA（其自研的多头潜在注意力解码核心库）更新中，社区开发者发现了一个代号为“Model 1”的神秘模型标识，它在 114 个文件中出现了 28 次，作为独立于当前 V3.2 架构的并行分支存在。

戳链接查看详情：http://t.cn/AX5F9FVv