算力消耗:大幅优化,不增反减
与上一代V3.2模型相比,在处理相同的百万Token超长上下文时,DeepSeek V4对算力的需求实现了质的飞跃。
· 具体降幅:V4-Pro版本单位token推理所需的浮点运算量(FLOPs)降至V3.2的27%,而更侧重性价比的V4-Flash版本更是仅有V3.2的10%。
· 根本原因:这一巨大飞跃归功于V4采用的混合注意力架构。其核心组件为“压缩稀疏注意力” (CSA) 和 “高度压缩注意力” (HCA)。这两种机制通过动态筛选关键信息,并对上下文进行智能压缩,从而从根本上减少了计算量,有效破解了大模型长上下文的效率瓶颈。
💾 内存与存储使用:效率革命,极致压缩
与算力优化同等重要的是,V4对内存和存储的占用也进行了极限压缩。
· 显存占用暴跌:作为内存瓶颈核心的“KV缓存”占用量被极大压缩。V4-Pro的KV缓存仅为V3.2的10%,V4-Flash更是低至7%。
· 多级存储协同:为实现这一目标,V4设计了 “异构KV Cache与磁盘缓存” 机制。它将KV缓存分为热、温、冷数据,让高频访问的数据驻留高速内存,而将海量不常访问的数据迁移至大容量的低速内存或磁盘上。这种“分级存储”策略在性能和成本之间取得了微妙的平衡。
· 其他关键技术:V4还采用了FP4/FP8量化技术,将模型参数的存储空间减少了50%以上;并引入了三维并行训练架构,进一步将训练时的显存占用降低了65%。
发布于 广东
