2025年9月29日，DeepSeek发布了V3.2-Exp实验性模型。该模型在V3.1-Terminus基础上引入了DeepSeek Sparse Attention（DSA）稀疏注意力机制，针对长文本的训练和推理效率进行了优化和验证，同时官方API价格大幅下调。引入稀疏注意力机制：DSA首次实现了细粒度稀疏注意力机制，将注意力模式分解为局部注

2025年9月29日，DeepSeek发布了V3.2-Exp实验性模型。该模型在V3.1-Terminus基础上引入了DeepSeek Sparse Attention（DSA）稀疏注意力机制，针对长文本的训练和推理效率进行了优化和验证，同时官方API价格大幅下调。
引入稀疏注意力机制：DSA首次实现了细粒度稀疏注意力机制，将注意力模式分解为局部注意力和全局注意力两部分。局部注意力使用滑动窗口机制，降低计算复杂度，全局注意力通过少量关键token维持全局建模能力。此外，还实现了硬件感知的稀疏化，通过分块处理策略确保内存访问的连续性，提高在GPU上的执行效率，同时引入动态稀疏调整机制，可根据输入序列特性和任务需求自动调整稀疏模式。在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。
模型性能表现：在多项权威公开基准中，V3.2-Exp与V3.1-Terminus整体表现接近。推理类任务中，MMLU-Pro成绩持平，AIME2025、Codeforces成绩均有提升；Agent工具任务中，BrowseComp、BrowseComp-zh、SimpleQA等均有小幅提升。整体来看，V3.2-Exp在多数指标上维持稳定水准，并在数学推理与编程任务上展现出正向优化趋势。
API降价：得益于新模型服务成本的大幅降低，官方API价格下调，开发者调用DeepSeek API的成本将降低50%以上。其中，输入缓存命中从0.5元降至0.2元/百万tokens，缓存未命中从4元降至2元/百万tokens，输出由12元降至3元/百万tokens。
型开源：DeepSeek-V3.2-Exp模型已在Huggingface与魔搭开源，同时开源的还有TileLang与CUDA两种版本的主要算子，方便社区进行研究性实验。#互联网科技# http://t.cn/AX7SEfJ2

发布于福建