大A剑客
26-02-22 20:26 微博认证:投资内容创作者

🧠 DeepSeek V4 核心升级

1️⃣ 上下文:100万token(史诗级)

• 从V3.2的128K → 1M(≈8倍)

• 可一次性读入30万行代码/整本书,无遗忘、不掉速

• 技术:Engram条件记忆+MoE,记忆与计算分离

2️⃣ 代码能力:全球顶尖(代码之神)

• 跑分:SWE-bench 83.7%、HumanEval 72.6%,超越GPT-4/Claude

• 语言:86→338种,覆盖PLC/COBOL等工业冷门语言

• 工程化:全项目理解、跨文件分析、自动生成测试用例、缺陷检测

• 速度:响应从18s→4s,推理提速1.8倍

3️⃣ 架构与成本:降本90%+

• 双轴稀疏:Engram+MoE+mHC,静态知识存内存、GPU专做推理

• 成本:推理仅为GPT-4的1/10、Claude的1/68

• 国产适配:深度优化昇腾910B/寒武纪/海光,算力利用率60%→85%

• 本地部署:双RTX4090可跑,普惠化

4️⃣ 多模态(新增)

• 支持图像/文档/OCR/音频/基础视频理解与生成

• 可处理PDF/扫描件/图表,做图文混合问答

5️⃣ 推理与效率

• 万亿参数仅激活320亿,显存占用降40%

• 训练成本约558万美元,仅为GPT-4的1/50

发布于 广东