AD超智能 26-03-06 16:56
微博认证:汽车博主

从技术原理上,小鹏老用户无需担心 VLA 2.0 的蒸馏效果:

详细分析下就知道了——小鹏目前车载最高算力是 Ultra,3 颗图灵;但其实这中间有一颗是挂在座舱芯片后面专用于座舱 AI 模型推理的,不参与辅助驾驶 ADAS

所以实际上小鹏目前市售车型的算力差别, 其实就是 750T,就是 1 颗图灵还是 2 颗的区别;再往前面算,那就是 500T 的双 OrinX 和 1500T 双图灵的区别

表面上看,算力差别很大,但是实际软件下来,我认为差别不会有倍数差异

因为现代 AI 模型“蒸馏”效率真的太高了,水平好的话,甚至可以用不到一半的参数保留 9 成功力

甚至可以说:因为训练方式的变化,现在所有排名靠前的 ADAS 系统,都是蒸馏得到的———云端训练一个大模型,再蒸馏到 1-5B 的车端小模型

再拿特斯拉举例子,FSD 一代芯片加起来 2 颗才 144T,但是运行在上面的 FSD 蒸馏版本,会让用户感觉比 720T 的二代平台差了几倍吗?当然不会,你自己去油管多看看视频就知道

再举个例子:最强的开源模型——阿里千问系列,每次发布都是各种不同尺寸的全家桶;但是参数差异都是 10 倍左右,比如 0.8B、7B、70B....这样子

因为同一代模型的不同分支, 10 倍左右的参数量,才会产生 AI 模型能力本质的差异

我们再回到辅助驾驶领域,车端推理平台受限于成本(散热根本不是问题,车里有液冷),实际上内存带宽和容量都限死的,导致车端 AI 模型的参数量差异根本不可能到 10 倍这么大

是的,哪怕芯片算力差 10 倍,但是内存带宽和容量可能只有 2-4 倍的差距,品牌方不可能冒险部署参数量差 10 倍的模型,否则高低配必然有一方会被爆掉

不是低配过于弱智,就是高配根本运行不了 10 倍参数的模型

所以千问这种大模型厂商的最优解,是每次发布,都搞出 10 倍参数差异的模型,在能力上拉出足够的差距,以配置全世界不同设备的需求;他们只负责开源,又不负责硬件适配

但是小鹏这种智能终端厂商没法这么干, VLA 模型已经太小了(行业普遍不到 5B),如果阉割到10%的参数,搞不好连车道线都看不懂,到时候谁买小鹏的车?所以只能是在低配车型上蒸馏,只砍掉一点参数(我怀疑能保留 6-7 成参数量),却能做到高配8-9 成的模型能力

发布于 广东