蘑菇的二姐
26-06-27 15:25 微博认证:社交电商分析师

#DeepSeek发布DSpark#DeepSeek今天发了DSpark,一个面向V4 Flash和Pro的推测解码框架。

说白了就是用半自回归生成加置信度调度,让模型推理的时候“猜”得更准更快。官方数据是51%到400%的吞吐提升,在Qwen、Gemma上也能迁移用。

自从DeepSeek把百万上下文做成标配之后,推理成本其实是倒挂的。上下文长了,算力需求反而降了。DSpark这波更像是把工程优化做到极致:Flash走量,Pro走质,各自配上合适的加速策略。

开源模型卷完参数卷推理效率,这个方向是对的。毕竟再强的模型,跑不动也是白搭。

发布于 浙江