蔚来这次全平台推送,背后更高的价值不是推送这件事本身。而是集中了多年的硬件平台、多代算法的迭代。
在如今多个技术交融的一刻蔚来能保证全平台车型的算法、体验到更新节奏的一致性。
和@叫肖漫就好 刚好聊到,这背后的全平台运营、管理能力,这一点我觉得蔚来在全行业上确实有独一份的超级价值。
从 2020 年节点开始,整个市场经历大幅的算法更新,还有多个车型的迭代、包括有多个英伟达平台的更新,还包括视觉为主还是激光雷达为主的切换等等。
蔚来因为初期定位高,所以这些问题自然而然能锁定在一个比较均衡的区间,芯片的使用也一直比较“执拗”。
少卿在这里提到一个点,2020年应该是ET7的时候,内部判断是未来肯定要面临多芯片部署的问题,所以最早的时候就没有延续英伟达通用的上层工具链。
原因一是英伟达的工具链一般是三五年前设计的,面对智驾未来算法迭代,效率不高。
原因二是要保证日后的自研准备,只调用CUDA这一层,也是最底层的接口,剩下的上层软件部署都是自己做,以后在切换自研芯片的时候可以把大部分底层代码直接共用掉。
而工具链中最重要的一部分就是编译器。
编译器是当在云端训出一个神经网络后,需要把它转成能在端侧芯片上跑的代码。而神经网络是一层一层的,每一层都需要去做优化。早期的框架非常依赖人工,比如网络有类别A、类别B,想把它们部署在 Orin 芯片上跑得快,就需要工程师针对每一个类别、每一层人工手写最高效的代码去优化。
但是算法迭代比人工的节奏更快,模型每改一个设计,后面都得蹲着一堆工程师去帮着重写两套代码做优化。如果不优化,它在车端跑得就很慢。
这变成一种矛盾是“算法工程师在前面改得很开心,后面一堆工程同学会跑断腿”。如果你没那么多工程师,部署就极慢,一个新算法出来可能十天半个月才能上车。
2020 年开始蔚来开始启动 AI 编译器。它最大的不同,是实现了“自动算子优化”和“自动图优化”。
算子优化,就是把原来人工写的代码,变成编译器一套逻辑自动生成优化。
而图优化,如果网络有 3 到 5 层,编译器会自动寻找能否把第一层和第二层揉在一起、第三和第四层揉在一起,进行多层联合优化,让最终的计算效率达到最高。
这套自动化的 AI 编译器,时间效率远远大于以前工程师手写。过去一个工程师可能要写三天,现在大部分算子自动跑一下就能优化出来。
原来基于标准的工具链,改动一次模型架构可能需要 1 到 2 周部署。少卿提到基于自动化方式,缩短到了 1 到 2 天,也满足了多个平台车型一起更新的可能。
最终的结果是,现在这套工具链能在蔚来全体系不同的芯片上统一使用,统一运营。
而行业里很多家遇到的问题是,因为多个平台就要重新针对自己的芯片做工具链,然后再想办法把多套代码打通。
#蔚来#
