DeepSeek火了几天了,每每看到总有对GPU编程甚至相关概念都一窍不通的在那乱兴奋,就觉得还是想说点什么。
先用普通人都能理解的话来说吧:
受不同媒体影响,很多人下意识地认为DeepSeek使用更底层的PTX代码,绕过了NVIDIA的CUDA生态。
实际上是这样的逻辑:使用了CUDA生态进行训练,但是使用了更为底层的PTX代码对性能进行大幅度优化。
其实说到这里,但凡对有计算机编程有些常识就会意识到什么。
重点:PTX比CUDA更为底层,并且仍然属于CUDA生态的一部分。
那这意味着什么?说明PTX代码不仅没有绕开CUDA,反而使得其代码更加深度绑定NVIDIA GPU。
也许有人会觉得x86汇编代码既能在Intel也能在AMD的CPU上运行,那么是不是GPU的PTX汇编也一样?
完全不是,首先每家GPU底层区别之大远比IA两家统一在x86架构上的建树来的多。
但又会有人觉得,那为什么我玩的游戏都是两边显卡都能玩?
游戏本身基于DirectX/Vulkan等高级API,最后经过多层中间层才会被翻译成GPU能直接理解的底层机器码。
在早期PC游戏上,很多3D游戏都是利用不同GPU的较为底层的API来做的特效,因此不同的游戏在不同显卡表现可以说是天差地别。
当年可是有S3、ATI、NVIDIA、3DFX很多家不同显卡/3D加速卡厂商。
扯远了,让我们说回DeepSeek。
首先明确一点:DeepSeek确实很厉害,尤其是当你阅读完其发布的paper之后,不得不感叹他们对CUDA的理解远超许多同行。
但不代表那些媒体所说的绕开CUDA生态就是成立的,张雪峰的含金量再一次上升了。
如果一直在跟进相关新闻的可能也会注意到,目前许多平台都提供了DeepSeek模型的支持,甚至包括采用了华为昇腾的云服务商都有提供。
这是否侧面说明了还是有绕开CUDA生态?
更是大错特错,他们提供了DeepSeek模型的部署不假,但只是让你能在不同架构的平台上运行它。
模型的训练和部署,一定要区分开来。
理论上你手机的SoC来跑DeepSeek模型也未尝不可,无非是算力太低,每秒token数感人罢了(姑且不论模型的大小)。
因此也有不少人使用自己的GPU甚至是CPU来搭建属于自己的DeepSeek。
太长看不懂的话,我直接抛出几个核心点:
1、PTX优化反而使DeepSeek更加深度绑定英伟达GPU。
2、部署不等于训练,DeepSeek并未脱离CUDA生态。
3、媒体混淆技术概念,使许多普通人被忽悠。(有些媒体也是揣着明白装糊涂,为了做空NV股价赚钱罢了)
4、DeepSeek的工作确实很厉害,处于行业头部位置。
