#DeepSeek发布DSpark#
中国大模型的路线很确定,在效果差不多的前提下拼成本,DeepSeek在这方面属于开创者和集大成者。
DSpark的表现不错,相比MTP基线,可以带来51%-400%的吞吐提升,并在Qwen、Gemma等开源模型上展现出迁移表现。不过这一效果还有待在实际部署中持续验证。
中国大模型不缺人才,缺的是顶级算力(跟美国科技巨头相比),所以必然要采取迂回路线。DeepSeek刚完成500亿融资,弹药充足,期待它接下来的表现。
#老张聊科技#
http://t.cn/AXSQhS9B
发布于 河南
