DeepSeek V4发布_新浪新闻

DeepSeek V4终于发布了，说一下一些我知道的情况吧。首先V4这么晚发其实和所谓的硬件适配没有关系，主要还是DS的算力不够，所以训练时间比较长。DS想要进一步提升就得扩大投入，这也是近期他们开始融资的原因。很多人不知道，新的昇腾采用了全新的计算架构，相比之前的版本对CUDA兼容性提高了非常多，现在还有Tilelang这种开源跨架构Triton替代品，所以硬件适配已经不是问题。

我觉得国产模型目前在架构上已经登峰造极了，算力虽然比AI御三家差但也够用，唯一欠缺的其实是高质量数据。DS V4技术报告就直说了他们接下来一是要搞多模态，二就是要搞更好的数据生成管线。这两个都和数据息息相关。国产模型很喜欢用蒸馏数据弯道超车，但是结果就是各种跑分都很高，但实际使用总是有点欠缺，这是因为这些蒸馏数据普遍都是大差不差的领域数据（比如编程），只用这类数据那么提升的只有一部分能力，而不是全面提升。

像OAI和Ant他们是有高质量数据标注服务（打标的是各领域专家、资深从业者）的，你可以理解为国模是对一部分测试调优，而他们是对所有测试调优。现在互联网数据几乎扒干净了，就是比拼谁家能想出更多的场景来标更多的高质量数据了。RL终究只能是提升已有能力的方法，想要更泛化、更强大的数据，还是得高质量数据才行。

当然，标数据也不一定非得需要专家，当模型Agent能力达到一定程度之后，让AI自己在任务中搜索资料、使用工具进行推理，本身就能产生一大批高质量数据，但这也需要精心设计的数据管线才行。

发布于辽宁