从AlphaGo到自动驾驶,小鹏走出了AI的“神之一手”(中)
摘自白雪 汽车之心
得基座模型者,得天下
L2 级辅助驾驶与 L4 级自动驾驶之间看起来隔着千军万马,但实际上都在用「规则」办事。
L2 这一层面,传统 L2 惯用端到端小模型+兜底规则,导致体验更像缝合怪。
在城区要用大量 Corner Case 训练,园区、停车场又要用通过多模态融合和低速控制算法来实现。
给用户最直观的感受就是,人开、机器开的区别很大,即便智驾能开好 80% 的路,但剩下的 20% 的场景却解决不了。体验是能用,但不好用。
另一边,传统的 L4 玩家也用规则办事,通过卷车辆规模、高精地图以及车辆上更精良的传感器和算力装配,试图达到更好的效果。这样做的结果是,智驾的安全下限和能力上限都很低。
典型如 Waymo 与特斯拉的对比。
3 个月前硅谷市区大停电,红路灯全部瘫痪,没有了基本交通规则后,Waymo 的车只能瘫痪在路中间。与之对比,特斯拉的 Robotaxi 丝毫没有受到影响。
说白了,1000 公里的 MPI 不如能自主思考的 AI 架构。
技术范式改革的真正特征是,L2 到 L4 完全打通,形成体验丝滑的智驾完全态。
而这就要靠综合能力:L4 能力=模型× 算力 x 数据 x 本体。
在这个公式里,任何要素没跟上都会对最终效果产生质的影响。
模型也是个很好的案例。
传统自动驾驶讲究分科治学,类似于每一个模块都有独立训练的专才。感知模块负责认路、预测模块负责猜别人怎么走等等。
迈入端到端时代之后,逻辑就变了。
智驾体验怎么样不是哪个模块做得好不好、规则写的好不好,甚至,也不是模型训练得够不够大,更取决于在打造模型的同时,建立一套发现问题—定义问题—验证问题的逻辑闭环。
此时,世界基座模型成了小鹏撬动技术范式的一个支点。
基座模型的本质就是让 AI 学习物理世界是怎么运转的,经过无数次训练之后,系统可以建立智驾对物理世界的理解,像人类一样做出驾驶决策。
基座模型就相当于智驾的教练。
小鹏重押基座模型的核心原因是,经过基座模型训练出的智驾拥有理解世界的能力,这些能力就像生长出来的一样,它能处理「没学过但能推理」的场景,不仅解决了智驾 20% 的高难度场景,还能解决剩下 1% 的极限场景。
特斯拉和小鹏,都是世界模型的簇拥者。
此前汽车之心就曾在文章《智驾圈都在等何小鹏》中提出,特斯拉和小鹏在车端及云端模型布局上及其相似。
在小鹏 2024 年迈入端到端变革之前,内部就早就有所准备了。
首先是能支持云端训练的底层超算中心。
算力是基座模型的「耗材」,建设超算中心意味着真金白银的投入。据何小鹏透露,去年小鹏算力花费大概几十个亿。
截止去年中旬,小鹏的超算中心算力规模已达 10EFLOPS,属于绝对的头部。
其次,基座模型训练需要数据作为「原材料」,必须喂饱基座模型足够多的数据,智驾系统才能变聪明。
去年 4 月小鹏的基座模型参数规模达到 720 亿,累计吃下了 4000 多万条视频片段,而且都是超过 30 秒的长时序视频。
72B 的模型量在目前汽车行业里是天文数字,同时也属于国内大型开源模型的第一梯队。
虽然这个参数量不是 AI 界的最大规模,但依旧够得到一些头部 AI 企业,比如智谱、阶跃星辰的企业级旗舰模型。
向 AI 企业看齐,除了加大算力和数据投入,也需要讲究技巧,提升云端模型的效率方法。
提升基座模型效率,一直是道难题。
毕竟,训练 VLA 模型不像大语言模型只需要解决计算瓶颈,它同时还要要关注数据加载、通信状态。
因此小鹏采用 CPU、GPU 联合训练来打破这些瓶颈。
比如,增加额外的 CPU 节点来并行处理数据等等,以此提升数据供给能力,确保 GPU 能持续获得数据。
无独有偶,与小鹏世界基座模型相对应,特斯拉自动驾驶副总裁 Ashok Elluswamy 也提到过 FASDV14 采用「世界模拟器」训练。
这种模拟器基于特斯拉海量数据集训练,根据当前状态与下一步动作生成未来状态,从而与车端的端到端基础模型闭环,做真实效果的评估。
为了建造世界模拟器,2019 年特斯拉就启动了超算项目,从断断续续自研 Dojo,再到购入英伟达 6.6 万块 H100、H200 用于训练,都足以验证模型的重要性。
这两个玩家的故事告诉我们真正的代际差,不只在数字指标上,也在于思路转换、真金白银的投入上。
与此同时,所谓「基座模型」的另一个关键词是基座。
之所以称为基座,就是因为基座模型不止是面向自动驾驶,还具备通用性。
此时 L4 公式里的「本体」,就开始与小鹏基座模型协同发挥作用。
有段对话很有意思。
——问:现在大模型决策有两种方法,一种是模型直接给出轨迹,另一种是它给出几种轨迹让系统选,小鹏第二代 VLA 是哪种?
——刘先明答:核心是你做的是自动驾驶还是 AI?小鹏做的是 AI,不是只用来做自动驾驶的专用模型。既然做了这么大的范式转变,就不会带着以前的逻辑、规则来解决问题。
传统车企的思维是,把自动驾驶仅仅当做车,挨着一个个区域去解决。
但从第二代 VLA 身上,小鹏开始把它作为 AI 去解决,因此小鹏的世界基座模型可以跨车、跨国家、跨设备。
小鹏用一套基座模型,同时驱动 L2 辅助驾驶、L4 无人驾驶、人形机器人、飞行汽车。这与特斯拉逻辑一致,Optimus 机器人和 FSD 自动驾驶,也在共享同一个世界模型的计算底座。
马斯克希望未来AI芯片与模型能够应用于商业航天火箭
只不过,特斯拉想造的飞行汽车还没补齐「本体」的最后一块版本。
从这个角度上来说,小鹏甚至先于特斯拉一步,从车企成为了 AI 公司。
