HuggingFace
26-05-19 10:41 微博认证:HuggingFace官方微博

DeepSeek 发布 V4 了。
这次最值得关注的,不只是参数规模,而是:它终于开始认真解决 AI 智能体(Agent)长上下文里的真实工程问题。

这代模型有两个版本:
- DeepSeek-V4-Pro:1.6T 总参数,49B 激活
- DeepSeek-V4-Flash:284B 总参数,13B 激活
两者都支持 100 万 Token 上下文。

但文章里最重要的一句话其实是:
“1M context window is capacity, not performance.”

很多模型号称支持超长上下文,但 Agent 真跑起来时会出现经典问题:
- KV Cache 爆显存
- Tool call 越跑越慢
- 长任务中间开始退化
- Context 越长推理越贵
而 DeepSeek V4 的核心目标,就是解决这些问题。

它怎么做到的?
DeepSeek V4 引入了一套 Hybrid Attention 机制:
🧠 CSA(Compressed Sparse Attention)
把 KV Cache 压缩 4 倍,再做稀疏检索。
🧠 HCA(Heavily Compressed Attention)
直接压缩 128 倍,用超短压缩序列做 dense attention。
两种 attention 在不同层交替使用。

结果非常夸张:
- 单 Token 推理 FLOPs 只有 V3.2 的 27%
- KV Cache 内存占用只有约 10%
- 相比传统 GQA 架构,KV Cache 大约只需要 2%

这意味着:
Agent 真正跑长任务时,终于有机会“持续工作”而不是中途崩掉。

更有意思的是,它不只是改了 Attention。

DeepSeek V4 还针对 Agent 做了很多非常工程化的设计:
✅ Tool call 使用 XML 风格 schema,而不是 JSON string
减少嵌套转义失败。
✅ 引入特殊 Token:|DSML|
专门处理工具调用。
✅ 支持跨 user turn 保留 reasoning
以前很多模型一旦用户发新消息,就会丢掉之前的推理链。
V4 在有 tool call 时会保留完整 reasoning history,更适合长时间 Agent 工作流。
✅ DSec 沙箱系统
一个专门给 RL rollout 做的大规模工具执行平台,支持 container、microVM、VM 等多种执行环境。

最终结果也非常直接:
- SWE Verified:80.6
- Terminal Bench 2.0:67.9
- MCPAtlas:73.6
已经接近很多闭源 frontier 模型。

这篇文章最值得关注的地方是:
它终于把“大上下文”从营销数字,变成了真正能跑 Agent workload 的系统设计。
真正重要的不是“能塞 100 万 Token”,
而是 Agent 在第 80 万 Token 时还能不能稳定工作。

🤗 欢迎加入我们的中文社区:Chinese LLMs on Hugging Face,一起交流 Agent、长上下文与开源大模型!
#DeepSeek##AI智能体##大语言模型#

发布于 美国