袁国庆
26-06-27 15:19 微博认证:科技博主 微博原创视频博主

#DeepSeek发布DSpark#

DeepSeek今天放出大招——DSpark,一套给大模型推理"打鸡血"的加速方案,直接让V4 Flash和V4 Pro的吞吐量飙升51%到400%。

它把"半自回归生成"和"置信度调度"这两招捏在一起,让草稿模型不再盲目猜测。

简单点说:以前大模型写回答,像是一个字一个字往外蹦,还得反复检查对不对,特别慢。DSpark的做法是,让模型先"快速打草稿",然后按"把握程度"智能调度——有把握的字直接过,没把握的字再仔细琢磨。相当于给模型配了个聪明的小助理,该快的时候快,该稳的时候稳。

更狠的是,这套方法在Qwen、Gemma等开源模型上也能直接迁移,不是DeepSeek自家的"独门秘籍"。

当别家还在卷参数规模的时候,DeepSeek已经开始卷推理效率了——毕竟模型再强,用户等不起也是白搭。这步棋,够狠。

发布于 上海