DeepSeek V4算力需求降低

算力消耗：大幅优化，不增反减

与上一代V3.2模型相比，在处理相同的百万Token超长上下文时，DeepSeek V4对算力的需求实现了质的飞跃。

· 具体降幅：V4-Pro版本单位token推理所需的浮点运算量（FLOPs）降至V3.2的27%，而更侧重性价比的V4-Flash版本更是仅有V3.2的10%。
· 根本原因：这一巨大飞跃归功于V4采用的混合注意力架构。其核心组件为“压缩稀疏注意力” (CSA) 和 “高度压缩注意力” (HCA)。这两种机制通过动态筛选关键信息，并对上下文进行智能压缩，从而从根本上减少了计算量，有效破解了大模型长上下文的效率瓶颈。

💾 内存与存储使用：效率革命，极致压缩

与算力优化同等重要的是，V4对内存和存储的占用也进行了极限压缩。

· 显存占用暴跌：作为内存瓶颈核心的“KV缓存”占用量被极大压缩。V4-Pro的KV缓存仅为V3.2的10%，V4-Flash更是低至7%。
· 多级存储协同：为实现这一目标，V4设计了 “异构KV Cache与磁盘缓存” 机制。它将KV缓存分为热、温、冷数据，让高频访问的数据驻留高速内存，而将海量不常访问的数据迁移至大容量的低速内存或磁盘上。这种“分级存储”策略在性能和成本之间取得了微妙的平衡。
· 其他关键技术：V4还采用了FP4/FP8量化技术，将模型参数的存储空间减少了50%以上；并引入了三维并行训练架构，进一步将训练时的显存占用降低了65%。

发布于广东