DeepSeek 刚刚发布了新模型——DeepSeek-V3.2-Speciale!
从分数上看就是 DeepSeek-V3.2-Exp 的优化版本了,数学能力测试的AIME25 直接刷到了99.2 % 已经刷爆了,SWE-Bench Verified 也来到了 73.1, 距离claude-sonnet-4.5 的77.2 还有一些距离。
给大家整理了本次发布的重点内容,最重要的还是DeepSeek自己搞了个优化的稀疏注意力 (稀疏注意力都是用来优化长上下文的,能在超长上下文中表现良好,并且节省资源)。原生上下文长度来到了163K。
其次我觉得最重要的是大规模智能体任务合成这个,现在大模型进化速度最大的限制其实是训练材料,人工产生的已经很难满足大模型训练了,而DeepSeek探索出了一个自动合成Agent任务训练数据的方法,这对大模型性能短时间迅速提升有至关重要的作用。
另外还提到了可扩展强化学习框架,这个光从模型卡中介绍看不到具体细节,目前他们的技术报告还没上传,等上传后我给大家带来详细解读。
以及,俺正在测了!稍后为大家带来DeepSeek-V3.2-Speciale编程能力实测!
#ai创造营##ai生活指南##deepseek#
发布于 美国
