少卿讲蔚来智驾

这一次见少卿，我觉得他的气质在变，过去偏科学家多一点，现在偏管理者多一点。workshop 上，他咔咔讲了 2 个小时，有技术的阐述，还有对行业、趋势的逻辑思考和判断，我总结了下，大概三个话题点，分享给大家，

一、四年前的老车，凭什么还能收到最新智驾？

今天蔚来新 OTA 开推，四个平台，Banyan、Cedar、Cedar S、Coconut+，同步更新。一个很有意思的问题是，4 年多以前上市的 ET7，为什么现在还能拿到接近满血版的辅助驾驶软件？
第一层原因，是硬件冗余。
蔚来给智驾硬件定过一个目标：一代硬件至少撑两代车型。Banyan 这代，要在 Cedar 周期不落伍；Cedar 这代，也要在下一个周期不落伍。
这个冗余在芯片上很具体。2022 年，蔚来上了四颗 Orin-X，1016 TOPS 算力。按当时的需求看，这当然是过剩的。但等到大模型上车、世界模型演进，冗余就变成了有余量。
自研神玑 NX9031 的时候，蔚来又押了一个判断：神经网络会转向纯 Transformer，所以芯片要把内存带宽堆上去。NX9031 的带宽做到 500GB/s 以上，大概是其他旗舰芯片的两倍。今天大模型上车，真正卡住体验的瓶颈之一，就是带宽。过去看起来像“用不完”的配置，现在成了老平台不掉队的本钱。
第二层原因，是自研工具链。
用 Orin-X 的时候，蔚来并没有把自己完全绑在英伟达生态里。CUDA 这一层贴着 GPU，绕不开，必须用；但再往上的部署框架、推理引擎、编译器，蔚来选择了自研。
这件事当时看起来很重，但现在回头看，它其实是在提前铺路。蔚来很早就决定要自研芯片，如果前期完全依赖英伟达上层工具链，等切到自研芯片时，软件体系就得推倒重来。只用 CUDA 这层“最小必需”，上层按多芯片兼容来设计，才有了今天神玑和英伟达双线并行的基础。
所以老平台和新平台能长期共线研发，不只是因为硬件能撑住，也因为软件工具链从一开始就没有被锁死。
第三层原因，是商业动机。
蔚来对智驾订阅是有追求的。订阅不是一个抽象指标，而是车主真金白银掏钱。能有多少用户愿意订阅，本质上是一个很现实的经营指标。
这会反过来约束整个体系：老平台不能被放弃。因为老车主也可能贡献订阅，也需要形成商业闭环。于是，智驾不是只服务最新车型的炫技功能，而必须变成一个持续经营的产品。

二、智驾上了正轨，蔚来做对了什么？

这次 OTA，大家拿到之后可以自己开开看，体感升级应该会比较明显。更值得问的是，为什么是这个周期，NWM 突然开始起势？
少卿的判断很有意思：大模型时代，给了蔚来一次重新拉开差距的机会。
他把一项技术的成熟过程分成四个阶段。
第一阶段，大家还没想清楚往哪走，也不知道怎么算好。第二阶段，方向清楚了，但技术路线还没定，存在弯道超车的机会，可以用更高效的方法，做出更好的结果。第三阶段，路线收敛，大家拼的是工程规模、团队人数和优化细节。第四阶段，性能接近见顶，只能靠产品和交互做差异化。
按照这个框架，2022 年前后的智驾，其实已经走到第三阶段。路线越来越清楚，拼的是谁工程师更多、谁工程化更强。
但到了 2023 年，端到端、世界模型这些新路线出现之后，智驾又从第三阶段退回了第二阶段。也就是说，路线重新打开了，行业重新有了用新方法提高效率、拉开差距的机会。
这正好进入了少卿的舒适区。他本来就是做模型出身，对这类技术范式变化非常敏感。蔚来从 2024 年开始上世界模型，去年下半年又叠加闭环强化学习，本质上是在追求一件事：用更少的算力、更低的训练成本，做出更好的模型效果。
这时候拼的就不只是堆人，而是路线效率。
组织上，少卿大概两年前把团队改成了“4×100 米接力”：第一棒做预研，第二棒做主线交付，第三棒做跨平台，第四棒完成具体车型 OTA。
在第三阶段拼工程的时候，预研投入不需要特别重；但当行业重新回到第二阶段，预研就变得非常关键。蔚来这两年专门布了几个预研团队，把资源往前端压，就是为了在技术路线还没有完全收敛时，争取做出真正的创新。

三、性能多提 3 分，要 10 倍数据，钱包受不了，怎么办？

AI 有一条很现实的规律：性能是线性涨的，但数据需求往往是指数级涨的。
模型效果多提 3 分，数据可能要翻 10 倍；多提 6 分，数据可能要翻 100 倍。少卿说得很直白：“钱包受不了了。”
矛盾就在这里：数据需要指数级增长，但钱不能指数级烧。那怎么办？
答案是，提高有效数据的密度。
对模型真正有用的数据，不是那些它已经会处理的普通场景，而是 corner case。就像刷题一样，会做的题再刷一遍，价值很低；真正让你进步的，是那些你不会做、容易错、边界很复杂的题。
所以智驾数据的问题，是“怎么从海量无效数据里，捞出真正有用的场景”。
第一层，是把近百万台量产车用起来。
云端可以下发“捞数据”任务，让量产车在真实道路上筛选研发想要的 corner case。这里又回到了前面的硬件冗余：如果车端没有足够算力，连筛数据这件事都很难做。
第二层，是看用户干预。
在人机共驾状态下，如果用户接管，基本说明这个场景没有满足用户体验要求。这样的数据非常有价值，因为它天然标记了“模型处理得不够好”的地方。
第三层，是在仿真平台里主动造难题。
比如，现在车要变道，但离白线只剩 3 米，这时候该怎么办？这类场景在真实世界里可能不高频，但对模型能力非常关键。蔚来要做的，是在仿真里专门生成这些复杂样本，逼模型学会如何从糟糕状态里把车救回来。
少卿最后打了一个很贴切的比方。
为什么大语言模型发展得这么顺？因为互联网上天然躺着几十 T 的数据，扒下来、清洗一下，就能训练。而且这些数据本身就是被筛过的。10 亿网民花了 10 年上传内容，人们天然更愿意上传新奇的、有意思的、别人没见过的东西，不爱上传那些所有人都知道的大路货。
换句话说，互联网本身就帮大模型完成了一次大规模 corner case 筛选。
但智驾没有这个条件。它既没有这么大的天然数据池，也没有 10 亿网民帮你筛选有效样本。所以智驾真正要解决的，就是自己挖掘、自己制造足够多的有效数据。

发布于广东