【#DeepSeek发布DSpark#】6月27日,DeepSeek发布面向Deepseek V4 Flash与V4 Pro的DSpark。DSpark是一种结合半自回归生成的置信度调度推测解码方法,通过草稿生成、置信度评分和硬件感知前缀调度,让目标模型更高效地验证候选前缀,从而提升推理吞吐。
官方展示数据显示,相比MTP基线,DSpark可带来51%至400%的吞吐提升,并在Qwen、Gemma等开源模型上展现出迁移表现。若相关效果在实际部署中持续成立,DSpark有望进一步降低大模型推理成本,并为高并发AI应用提供新的工程优化路径。(来源/微博AI)
