#DeepSeek发布DSpark#DeepSeek今天发了DSpark,一个面向V4 Flash和Pro的推测解码框架。
说白了就是用半自回归生成加置信度调度,让模型推理的时候“猜”得更准更快。官方数据是51%到400%的吞吐提升,在Qwen、Gemma上也能迁移用。
自从DeepSeek把百万上下文做成标配之后,推理成本其实是倒挂的。上下文长了,算力需求反而降了。DSpark这波更像是把工程优化做到极致:Flash走量,Pro走质,各自配上合适的加速策略。
开源模型卷完参数卷推理效率,这个方向是对的。毕竟再强的模型,跑不动也是白搭。
发布于 浙江
