DeepSeek V4终于发布了,说一下一些我知道的情况吧。首先V4这么晚发其实和所谓的硬件适配没有关系,主要还是DS的算力不够,所以训练时间比较长。DS想要进一步提升就得扩大投入,这也是近期他们开始融资的原因。很多人不知道,新的昇腾采用了全新的计算架构,相比之前的版本对CUDA兼容性提高了非常多,现在还有Tilelang这种开源跨架构Triton替代品,所以硬件适配已经不是问题。
我觉得国产模型目前在架构上已经登峰造极了,算力虽然比AI御三家差但也够用,唯一欠缺的其实是高质量数据。DS V4技术报告就直说了他们接下来一是要搞多模态,二就是要搞更好的数据生成管线。这两个都和数据息息相关。国产模型很喜欢用蒸馏数据弯道超车,但是结果就是各种跑分都很高,但实际使用总是有点欠缺,这是因为这些蒸馏数据普遍都是大差不差的领域数据(比如编程),只用这类数据那么提升的只有一部分能力,而不是全面提升。
像OAI和Ant他们是有高质量数据标注服务(打标的是各领域专家、资深从业者)的,你可以理解为国模是对一部分测试调优,而他们是对所有测试调优。现在互联网数据几乎扒干净了,就是比拼谁家能想出更多的场景来标更多的高质量数据了。RL终究只能是提升已有能力的方法,想要更泛化、更强大的数据,还是得高质量数据才行。
当然,标数据也不一定非得需要专家,当模型Agent能力达到一定程度之后,让AI自己在任务中搜索资料、使用工具进行推理,本身就能产生一大批高质量数据,但这也需要精心设计的数据管线才行。
发布于 辽宁
