名人张聊
26-06-27 15:43 微博认证:科技博主

#DeepSeek发布DSpark#

中国大模型的路线很确定,在效果差不多的前提下拼成本,DeepSeek在这方面属于开创者和集大成者。

DSpark的表现不错,相比MTP基线,可以带来51%-400%的吞吐提升,并在Qwen、Gemma等开源模型上展现出迁移表现。不过这一效果还有待在实际部署中持续验证。

中国大模型不缺人才,缺的是顶级算力(跟美国科技巨头相比),所以必然要采取迂回路线。DeepSeek刚完成500亿融资,弹药充足,期待它接下来的表现。

#老张聊科技#

http://t.cn/AXSQhS9B

发布于 河南