DeepSeek发布DSpark

#DeepSeek发布DSpark# DSpark这次做的，是把半自回归生成和置信度调度放到一起，让模型在把握较高的时候多往前生成，遇到不确定的位置再收紧节奏，尽量少做无效计算。

官方给出的吞吐提升是51%到400%，这个数字会随着模型、任务和部署环境变化，不能直接理解成所有场景都能快四倍。但放到真实业务里，只要能稳定提升一部分，对并发、延迟和算力成本都会有明显影响。很多模型并不是能力不够，而是上线之后太慢、太贵，最后卡在工程这一关。

DSpark在Qwen、Gemma等开源模型上也有迁移表现，这一点说明它并不只是给DeepSeek自家模型做专属优化。现在行业开始从「模型能不能做出来」，转向「同样的能力能不能跑得更快、更省」，推理效率正在变成新的竞争门槛[并不简单]

发布于美国