DeepSeek火了几天了，每每看到总有对GPU编程甚至相关概念都一窍不通的在那乱兴奋，就觉得还是想说点什么。先用普通人都能理解的话来说吧：受不同媒体影响，很多人下意识地认为DeepSeek使用更底层的PTX代码，绕过了NVIDIA的CUDA生态。实际上是这样的逻辑：使用了CUDA生态进行训练，但是使用了更为

DeepSeek火了几天了，每每看到总有对GPU编程甚至相关概念都一窍不通的在那乱兴奋，就觉得还是想说点什么。

先用普通人都能理解的话来说吧：

受不同媒体影响，很多人下意识地认为DeepSeek使用更底层的PTX代码，绕过了NVIDIA的CUDA生态。
实际上是这样的逻辑：使用了CUDA生态进行训练，但是使用了更为底层的PTX代码对性能进行大幅度优化。
其实说到这里，但凡对有计算机编程有些常识就会意识到什么。

重点：PTX比CUDA更为底层，并且仍然属于CUDA生态的一部分。
那这意味着什么？说明PTX代码不仅没有绕开CUDA，反而使得其代码更加深度绑定NVIDIA GPU。

也许有人会觉得x86汇编代码既能在Intel也能在AMD的CPU上运行，那么是不是GPU的PTX汇编也一样？
完全不是，首先每家GPU底层区别之大远比IA两家统一在x86架构上的建树来的多。

但又会有人觉得，那为什么我玩的游戏都是两边显卡都能玩？
游戏本身基于DirectX/Vulkan等高级API，最后经过多层中间层才会被翻译成GPU能直接理解的底层机器码。
在早期PC游戏上，很多3D游戏都是利用不同GPU的较为底层的API来做的特效，因此不同的游戏在不同显卡表现可以说是天差地别。
当年可是有S3、ATI、NVIDIA、3DFX很多家不同显卡/3D加速卡厂商。

扯远了，让我们说回DeepSeek。

首先明确一点：DeepSeek确实很厉害，尤其是当你阅读完其发布的paper之后，不得不感叹他们对CUDA的理解远超许多同行。
但不代表那些媒体所说的绕开CUDA生态就是成立的，张雪峰的含金量再一次上升了。

如果一直在跟进相关新闻的可能也会注意到，目前许多平台都提供了DeepSeek模型的支持，甚至包括采用了华为昇腾的云服务商都有提供。
这是否侧面说明了还是有绕开CUDA生态？
更是大错特错，他们提供了DeepSeek模型的部署不假，但只是让你能在不同架构的平台上运行它。

模型的训练和部署，一定要区分开来。
理论上你手机的SoC来跑DeepSeek模型也未尝不可，无非是算力太低，每秒token数感人罢了（姑且不论模型的大小）。
因此也有不少人使用自己的GPU甚至是CPU来搭建属于自己的DeepSeek。

太长看不懂的话，我直接抛出几个核心点：
1、PTX优化反而使DeepSeek更加深度绑定英伟达GPU。
2、部署不等于训练，DeepSeek并未脱离CUDA生态。
3、媒体混淆技术概念，使许多普通人被忽悠。（有些媒体也是揣着明白装糊涂，为了做空NV股价赚钱罢了）
4、DeepSeek的工作确实很厉害，处于行业头部位置。

发布于江西