🧠 DeepSeek V4 核心升级
1️⃣ 上下文:100万token(史诗级)
• 从V3.2的128K → 1M(≈8倍)
• 可一次性读入30万行代码/整本书,无遗忘、不掉速
• 技术:Engram条件记忆+MoE,记忆与计算分离
2️⃣ 代码能力:全球顶尖(代码之神)
• 跑分:SWE-bench 83.7%、HumanEval 72.6%,超越GPT-4/Claude
• 语言:86→338种,覆盖PLC/COBOL等工业冷门语言
• 工程化:全项目理解、跨文件分析、自动生成测试用例、缺陷检测
• 速度:响应从18s→4s,推理提速1.8倍
3️⃣ 架构与成本:降本90%+
• 双轴稀疏:Engram+MoE+mHC,静态知识存内存、GPU专做推理
• 成本:推理仅为GPT-4的1/10、Claude的1/68
• 国产适配:深度优化昇腾910B/寒武纪/海光,算力利用率60%→85%
• 本地部署:双RTX4090可跑,普惠化
4️⃣ 多模态(新增)
• 支持图像/文档/OCR/音频/基础视频理解与生成
• 可处理PDF/扫描件/图表,做图文混合问答
5️⃣ 推理与效率
• 万亿参数仅激活320亿,显存占用降40%
• 训练成本约558万美元,仅为GPT-4的1/50
发布于 广东
