DeepSeek发布DSpark

#DeepSeek发布DSpark#

中国大模型的路线很确定，在效果差不多的前提下拼成本，DeepSeek在这方面属于开创者和集大成者。

DSpark的表现不错，相比MTP基线，可以带来51%-400%的吞吐提升，并在Qwen、Gemma等开源模型上展现出迁移表现。不过这一效果还有待在实际部署中持续验证。

中国大模型不缺人才，缺的是顶级算力（跟美国科技巨头相比），所以必然要采取迂回路线。DeepSeek刚完成500亿融资，弹药充足，期待它接下来的表现。

#老张聊科技#

http://t.cn/AXSQhS9B

发布于河南