DeepSeek-V3.2(标准版)在公开推理 Benchmark 中达到 GPT-5 级别,仅略低于 Gemini-3.0-Pro。首次实现将思考融入工具调用,支持思考和非思考模式下的工具调用,Agent 评测性能达到开源模型最高水平。
DeepSeek-V3.2-Speciale(特别版)性能媲美 Gemini-3.0-Pro,并在 IMO、CMO、ICPC、IOI 等顶级竞赛中取得金牌级别成绩。
创新点1:DeepSeek 稀疏注意力机制,简称 DSA,当需要回忆某个信息时,模型通过索引选取TOP-K相关的部分进行矩阵处理,其余部分进行线性处理。降低单位Token计算量和KV占用,从而增长上下文长度
创新点2:RL算力占比持续提升、成为Scaling law新驱动,后训练阶段花费了超过预训练计算10%的资源,让模型的逻辑推理能力大幅提升
创新点3:采用大批量Agent合成数据,生成了超过1800个不同的环境和 85000个复杂提示驱动强化学习过程,让模型学会一边思考一边使用工具,显著提升了模型在Agent场景中的泛化能力和指令遵循能力。
发布于 天津
