DeepSeek V4核心升级

🧠 DeepSeek V4 核心升级

1️⃣ 上下文：100万token（史诗级）

• 从V3.2的128K → 1M（≈8倍）

• 可一次性读入30万行代码/整本书，无遗忘、不掉速

• 技术：Engram条件记忆+MoE，记忆与计算分离

2️⃣ 代码能力：全球顶尖（代码之神）

• 跑分：SWE-bench 83.7%、HumanEval 72.6%，超越GPT-4/Claude

• 语言：86→338种，覆盖PLC/COBOL等工业冷门语言

• 工程化：全项目理解、跨文件分析、自动生成测试用例、缺陷检测

• 速度：响应从18s→4s，推理提速1.8倍

3️⃣ 架构与成本：降本90%+

• 双轴稀疏：Engram+MoE+mHC，静态知识存内存、GPU专做推理

• 成本：推理仅为GPT-4的1/10、Claude的1/68

• 国产适配：深度优化昇腾910B/寒武纪/海光，算力利用率60%→85%

• 本地部署：双RTX4090可跑，普惠化

4️⃣ 多模态（新增）

• 支持图像/文档/OCR/音频/基础视频理解与生成

• 可处理PDF/扫描件/图表，做图文混合问答

5️⃣ 推理与效率

• 万亿参数仅激活320亿，显存占用降40%

• 训练成本约558万美元，仅为GPT-4的1/50

发布于广东