#DeepSeek发布DSpark#现在不管自研大模型还是开源模型,原生自回归生成有个绕不开的问题,生成一个词元就要完整跑一遍模型,GPU算力、显存大半都空转。碰到高并发聊天、批量写代码、超长文档解读这类场景,不仅响应慢,算力开销还特别贵。
目前行业普遍用推测解码提速,像Eagle3、DFlash、MTP都是主流方案,思路大同小异,先用小模型提前预生成一批候选词,再丢给主模型一次性批量核验。但老方案问题很突出,预生成长度固定、没法动态判断预测准不准、和硬件适配差,还很难适配不同模型,一到大流量并发,提速效果直接大打折扣。
DSpark这次直接把三大能力整合,重构了推测解码逻辑,也是它最核心的创新点,草稿预生成可快速产出候选文本片段,置信度动态调度能实时的判断每段内容靠谱程度,自动筛掉大概率会核验失败的无效token,减少无用计算,节省token就是省钱啊,还有这个硬件感知调度,实时读取GPU显存、负载情况,灵活调整核验长度,最大化利用硬件性能。
实测数据提升非常可观,对比传统MTP方案,推理吞吐直接提升51%~400%。横向对比Qwen3-8B、14B等热门开源模型,DSpark每一轮能成功保留的有效token数量,对话、代码、数学任务都表现更强,少了大量重复运算,六月是个ai更新月,下一步期待更多国产大模型的精彩表现。[good]
发布于 山东
