DeepSeek发布DSpark提速

#DeepSeek发布DSpark# 大模型生成速度这件事，普通用户感受到的是回复快不快，放到企业部署里，背后对应的却是并发能力、算力资源和整套服务成本。DSpark瞄准的正是这一块。

它把半自回归生成和置信度调度结合起来，模型判断更有把握时，可以一次多生成一些内容。碰到不确定的位置，再缩小步子。这样既能减少无效预测，也不需要为了追求速度一直冒进。

官方给出的吞吐提升为51%至400%。具体表现会受到模型规模、任务类型和部署环境影响，不能简单理解成所有场景都能提速四倍，但对真实业务而言，哪怕稳定提升几十个百分点，也会直接影响并发能力、响应速度和单位请求成本。

模型能力决定应用能做什么，推理效率则决定这些能力能否以可接受的成本大规模运行[并不简单]

发布于浙江