#deepseekV4# 采用的是以国产华为昇腾芯片为主、同时兼容英伟达硬件的混合策略。
具体来说,不同环节的部署情况如下:
部署环节 主要使用的服务器/芯片 关键说明
官方推理服务 华为昇腾芯片 V4已在昇腾芯片上完成底层迁移与深度优化,官方API服务运行于国产算力底座之上。
模型训练与开发 英伟达GPU 受限于生态依赖,此前的基础模型训练仍基于英伟达GPU完成。
第三方部署 两者皆可 官方已提供针对英伟达最新Blackwell架构(如SM100)的优化,云厂商可灵活选择。
💻 为什么“主力”是华为昇腾?
这次选择背后有两个关键原因:
战略与成本考量:在中美芯片限制背景下,采用国产芯片是确保供应链安全的关键一步。同时,昇腾在特定精度(如FP8)下的性价比优于英伟达的合规产品(如H20)。
深度生态适配:为了在昇腾上跑出好性能,工程师投入巨大精力将代码从英伟达的CUDA生态迁移到华为的CANN生态,并对算子、通信库等进行了大量重写。
⚙️ “混合”模式具体是如何运作的?
这套“国产推理 + 兼容训练”的模式,让DeepSeek既能借力国产替代,又保有了技术灵活性:
推理用国产,训练仍用英伟达:目前DeepSeek提供的官方服务(如API、Web/App端)已完全跑在华为昇腾芯片上。但在前期研发阶段,由于CUDA生态的深厚积累,基础模型的训练仍主要在英伟达GPU上进行。
向开发者兼容两种硬件:DeepSeek的代码库同时提供了对华为CANN和英伟达CUDA的支持。这意味着无论是个人开发者还是企业客户,都可以根据自己的需求,选择在国产昇腾服务器或英伟达显卡上部署V4模型。
这次的硬件选择体现了DeepSeek在技术独立与商业实用间的权衡。
发布于 河北
