DeepSeek发布V4_新浪新闻

DeepSeek 发布 V4 了。
这次最值得关注的，不只是参数规模，而是：它终于开始认真解决 AI 智能体（Agent）长上下文里的真实工程问题。

这代模型有两个版本：
- DeepSeek-V4-Pro：1.6T 总参数，49B 激活
- DeepSeek-V4-Flash：284B 总参数，13B 激活
两者都支持 100 万 Token 上下文。

但文章里最重要的一句话其实是：
“1M context window is capacity, not performance.”

很多模型号称支持超长上下文，但 Agent 真跑起来时会出现经典问题：
- KV Cache 爆显存
- Tool call 越跑越慢
- 长任务中间开始退化
- Context 越长推理越贵
而 DeepSeek V4 的核心目标，就是解决这些问题。

它怎么做到的？
DeepSeek V4 引入了一套 Hybrid Attention 机制：
🧠 CSA（Compressed Sparse Attention）
把 KV Cache 压缩 4 倍，再做稀疏检索。
🧠 HCA（Heavily Compressed Attention）
直接压缩 128 倍，用超短压缩序列做 dense attention。
两种 attention 在不同层交替使用。

结果非常夸张：
- 单 Token 推理 FLOPs 只有 V3.2 的 27%
- KV Cache 内存占用只有约 10%
- 相比传统 GQA 架构，KV Cache 大约只需要 2%

这意味着：
Agent 真正跑长任务时，终于有机会“持续工作”而不是中途崩掉。

更有意思的是，它不只是改了 Attention。

DeepSeek V4 还针对 Agent 做了很多非常工程化的设计：
✅ Tool call 使用 XML 风格 schema，而不是 JSON string
减少嵌套转义失败。
✅ 引入特殊 Token：|DSML|
专门处理工具调用。
✅ 支持跨 user turn 保留 reasoning
以前很多模型一旦用户发新消息，就会丢掉之前的推理链。
V4 在有 tool call 时会保留完整 reasoning history，更适合长时间 Agent 工作流。
✅ DSec 沙箱系统
一个专门给 RL rollout 做的大规模工具执行平台，支持 container、microVM、VM 等多种执行环境。

最终结果也非常直接：
- SWE Verified：80.6
- Terminal Bench 2.0：67.9
- MCPAtlas：73.6
已经接近很多闭源 frontier 模型。

这篇文章最值得关注的地方是：
它终于把“大上下文”从营销数字，变成了真正能跑 Agent workload 的系统设计。
真正重要的不是“能塞 100 万 Token”，
而是 Agent 在第 80 万 Token 时还能不能稳定工作。

🤗 欢迎加入我们的中文社区：Chinese LLMs on Hugging Face，一起交流 Agent、长上下文与开源大模型！
#DeepSeek##AI智能体##大语言模型#

发布于美国