DeepSeek AI 今天 11:24 发布了其最新一代大语言模型 DeepSeek-V4,包括 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。
1. DeepSeek-V4 引入了革命性的 Engram 条件记忆模块,旨在解决传统 Transformer 模型在长上下文处理中的效率瓶颈和“遗忘”问题
2. DeepSeek-V4 实现了 100 万(1M)的上下文长度,这使得模型能够处理极长的文本输入,例如整本书籍或大量代码库。
3. DeepSeek-V4-Pro: 拥有 1.6 万亿(1.6T)的总参数和 490 亿(49B)的活跃参数。该版本旨在提供与全球顶级闭源模型相媲美的性能,适用于对性能要求极高的复杂任务
4. DeepSeek-V4-Flash: 拥有 2840 亿(284B)的总参数和 130 亿(13B)的活跃参数。该版本专注于速度、效率和成本效益,是高吞吐量、低延迟应用场景的理想选择
5. 原生支持多模态能力,使其能够理解和处理文本、图像等多种形式的信息
发布于 广东
