小鹏VLA 2.0技术分析

从技术原理上，小鹏老用户无需担心 VLA 2.0 的蒸馏效果：

详细分析下就知道了——小鹏目前车载最高算力是 Ultra，3 颗图灵；但其实这中间有一颗是挂在座舱芯片后面专用于座舱 AI 模型推理的，不参与辅助驾驶 ADAS

所以实际上小鹏目前市售车型的算力差别，其实就是 750T，就是 1 颗图灵还是 2 颗的区别；再往前面算，那就是 500T 的双 OrinX 和 1500T 双图灵的区别

表面上看，算力差别很大，但是实际软件下来，我认为差别不会有倍数差异

因为现代 AI 模型“蒸馏”效率真的太高了，水平好的话，甚至可以用不到一半的参数保留 9 成功力

甚至可以说：因为训练方式的变化，现在所有排名靠前的 ADAS 系统，都是蒸馏得到的———云端训练一个大模型，再蒸馏到 1-5B 的车端小模型

再拿特斯拉举例子，FSD 一代芯片加起来 2 颗才 144T，但是运行在上面的 FSD 蒸馏版本，会让用户感觉比 720T 的二代平台差了几倍吗？当然不会，你自己去油管多看看视频就知道

再举个例子：最强的开源模型——阿里千问系列，每次发布都是各种不同尺寸的全家桶；但是参数差异都是 10 倍左右，比如 0.8B、7B、70B....这样子

因为同一代模型的不同分支， 10 倍左右的参数量，才会产生 AI 模型能力本质的差异

我们再回到辅助驾驶领域，车端推理平台受限于成本（散热根本不是问题，车里有液冷），实际上内存带宽和容量都限死的，导致车端 AI 模型的参数量差异根本不可能到 10 倍这么大

是的，哪怕芯片算力差 10 倍，但是内存带宽和容量可能只有 2-4 倍的差距，品牌方不可能冒险部署参数量差 10 倍的模型，否则高低配必然有一方会被爆掉

不是低配过于弱智，就是高配根本运行不了 10 倍参数的模型

所以千问这种大模型厂商的最优解，是每次发布，都搞出 10 倍参数差异的模型，在能力上拉出足够的差距，以配置全世界不同设备的需求；他们只负责开源，又不负责硬件适配

但是小鹏这种智能终端厂商没法这么干， VLA 模型已经太小了（行业普遍不到 5B），如果阉割到10%的参数，搞不好连车道线都看不懂，到时候谁买小鹏的车？所以只能是在低配车型上蒸馏，只砍掉一点参数（我怀疑能保留 6-7 成参数量），却能做到高配8-9 成的模型能力

发布于广东