2025年9月29日,DeepSeek发布了V3.2-Exp实验性模型。该模型在V3.1-Terminus基础上引入了DeepSeek Sparse Attention(DSA)稀疏注意力机制,针对长文本的训练和推理效率进行了优化和验证,同时官方API价格大幅下调。
引入稀疏注意力机制:DSA首次实现了细粒度稀疏注意力机制,将注意力模式分解为局部注意力和全局注意力两部分。局部注意力使用滑动窗口机制,降低计算复杂度,全局注意力通过少量关键token维持全局建模能力。此外,还实现了硬件感知的稀疏化,通过分块处理策略确保内存访问的连续性,提高在GPU上的执行效率,同时引入动态稀疏调整机制,可根据输入序列特性和任务需求自动调整稀疏模式。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
模型性能表现:在多项权威公开基准中,V3.2-Exp与V3.1-Terminus整体表现接近。推理类任务中,MMLU-Pro成绩持平,AIME2025、Codeforces成绩均有提升;Agent工具任务中,BrowseComp、BrowseComp-zh、SimpleQA等均有小幅提升。整体来看,V3.2-Exp在多数指标上维持稳定水准,并在数学推理与编程任务上展现出正向优化趋势。
API降价:得益于新模型服务成本的大幅降低,官方API价格下调,开发者调用DeepSeek API的成本将降低50%以上。其中,输入缓存命中从0.5元降至0.2元/百万tokens,缓存未命中从4元降至2元/百万tokens,输出由12元降至3元/百万tokens。
型开源:DeepSeek-V3.2-Exp模型已在Huggingface与魔搭开源,同时开源的还有TileLang与CUDA两种版本的主要算子,方便社区进行研究性实验。#互联网科技# http://t.cn/AX7SEfJ2
发布于 福建
