元戎启行谈基座模型

元戎启行周光百人会论坛演讲全文：

大家好！我今天要分享的是“基座模型，让认知再次进化”。
过去几年，自动驾驶从2020年开始高速发展，每年都有明显的进步。但是我也看到了过去几年，随着场景复杂度不停地提升，传统小模型的自动驾驶提升变得越来越困难。尤其是在最近，各种版本的发布，你会发现有个很明显的“跷跷板效应”：往往是说某些智驾在某些场景——比如早上跑得好，可能中午会差一些，晚高峰会差一些；再比如说在上海跑得好，换个城市就不行。我们看到了很多现象，本质上来讲是今天智驾的小模型智驾自身能力的困境。

要真正做好这个的话，我觉得是全面的走向大模型，走向基座模型。智驾下一个阶段进展，不仅仅只是感知或者一些简单的“端到端”，我认为是一个整体认知层面的提升。
基座模型是实现这一核心的最重要的技术。在大洋彼岸，不管是特斯拉也好，Waymo也好，其实已经完成了这个变化，用基座模型驱动整个公司的研发。无图我觉得是很早的事情了。在去年做VLA的点上，我认为整个大模型还不是特别的Ready。我个人的看法是，在2025年的时候，整个大模型多模态并没有明显的进展。直到今年年初的时候，随着Gemini的发布，我们看到大模型在多模态领域取得了非常明显的进展。
最近也有很多大模型公司开始重新去看自动驾驶，至少我知道在国内最头部的大模型公司开始做自动驾驶了，而且参与这个事情的是他们多模态的负责人。为什么会有这样的动作？因为在物理AI这个场景里面，只有车子能够为你提供这么多高质量的数据。对于一个头部大模型公司来讲，做自动驾驶不是看License Fee，不是看挣这么点钱，而是要通过多模态基座模型的能力验证物理AI。

在分享技术之前，我先分享一下我们的数据。截至目前为止，我们已经交付了近30万台的城区NOA功能。在过去一年里，我们的累计行驶里程超过了13亿公里，用户使用时长超过了4000多万小时，避免了14万次的前向碰撞，避免了4.7万次的后向碰撞事故。这些都是真实的数据，也证明了辅助驾驶在日常生活中可以提供安全的价值。

从行业竞争格局来看，城区辅助L2+辅助驾驶正在快速集中。在2025年第四季度，包含我们在内的行业前三占据了99%的市场份额。我们这里是15.5%，稳居行业第一梯队。随着合作车型的持续落地和交付规模的扩大，我们的市场份额也在稳步提升。我们最近的一款车出来非常好，基本上日订单我们看到都是几千台，这也意味着我们城区的NOA解决方案正在被越来越多的车企和用户选择。

但是随着城区NOA规模化落地的过程中，我们也看到了越来越明显的行业现象：整个自动驾驶投入非常大，比如在2025年投入规模超过了1200亿，最好的芯片算力也达到了750T算力，但是真实在用户层面，你会发现用户的粘性并不是很强，渗透率也就15%左右。
这也是行业里面今天遇到的一个明显的落差：技术的投入增加，但消费者层面并没有把这个城区辅助驾驶作为日常的工具。怎么样将辅助驾驶从可用走向爱用、走向依赖？我觉得是接下来行业必须解决的问题。

这些也是有底层的技术原因驱动的。大家可能习惯了端到端出来，整个行业有一个快速的进展——2024年、2025年整个进展是非常快速的。但是2024年的进展是最快速的，到2025年也有其他家的跟进。
作为行业头部来讲，我认为2024年是进展最快的一年，包含我们在内，包括理想、小鹏、华为，在那年的进展是非常快的。2025年你会发现，头部的增长变慢了，第二梯队的人可能有比较快的增长。这是看到的行业现象。
最本质的原因是小模型的自动驾驶存在非常严重的“跷跷板效应”。说到底，今天已经量产的中国的自动驾驶里面，参数量说实话都非常小，都是在1B以下的，甚至在0.1B以下的模型，跑在芯片上典型的算力是在100T到200T。
这是一个小模型智驾的典型代表，是以卷积为主导、少量Transformer的架构。表现就在于：软件版本不停发版，你今天这版可能在某些场景好，可能在更新一版这个场景变差了、另外一个场景变好了。
整个进展是非常跳跃的，而且进展非常缓慢，这是小模型的问题，是模型Capacity、模型训练的问题。这种反复的修补、不停地迭代，并没有本质的提升。

在2025年的时候，我们也在行业里面第一个提出了VLA。其实在2024年我们提的端到端，也是中国第一个量产落地端到端的。2025年的VLA，其实还是在说VLA技术。在2025年这个点上，VLA的本质是深耕于OOM、深耕于多模态。多模态的最大进展其实是今年年初，我们看到了Gemini的发布，也看到了Sora的发布，整个多模态能力提升了一个台阶。这个技术的突破，我认为会非常快速地惠及不管是机器人还是自动驾驶。

怎么样解决小模型的“跷跷板”问题？我认为要把从小模型的自动驾驶变化成大模型的范式，用Scaling Law的形式去解决这个问题。我们的选择是选用整个的基座模型。不管是从模型的Scaling还是数据的Scaling层面同步推进，我们会打造40B参数的基座模型，统一整个——其实自动驾驶公司本质上来讲只做三件事：第一件事是有一个Driver（司机系统），就是今天我们用在车上的这套“端到端”自动驾驶系统；第二是分析的任务，比如路上路测测试，一个场景给你，你怎么去分析判断，这也是公司需要做的；第三是评测评价系统（Critic的系统）。整个系统里面三个功能，真正训练只有第一个系统，但是真正的精进是所有模块、整个模型都会参与。你放在车里的只是Driver。Waymo和特斯拉整个都基于基座模型，从Driver、分析、整合到一个评测体系。带来最大的变化在于：我们的Driver负责视觉输入生成驾驶并实时决策（因为算力的限制），分析过程是对关键场景的分析诊断。现在像以前是有人看Case来诊断，现在逐渐变成了用Gemini模型、千问各种模型帮你做一些诊断理解，最终是一个评测评价体系，可能是一个模拟器或世界模型模拟器。这种模型不仅会开车，同时还会理解怎么开并评估怎么样好。你的所有自动驾驶公司做的所有事情，都应该在基座模型里面，每一个步骤得到的信息的熵都应该沉淀在你的模型里面、沉淀在你的Driver里面。这样子的话，我们的驾驶系统就从过去的执行系统变成了一个认知的系统。但这整套搭建是非常不一样的。我们在过去的半年到一年中，花了非常多时间去重构整套体系，它不再是一个传统的自动驾驶范式，而是一个完整的大模型方式来做这个事情。

基于我们重构后的基座模型，我们整个重新构建了数据闭环，从传统的依赖人工的数据闭环变成通过基座模型去做，整个迭代周期非常快，从传统可能需要一周几天的一个迭代周期速度到了几个小时，而且准度精度非常高，每一个步骤都沉淀出模型的经验，让训练的效率更高，持续去提升辅助驾驶的能力。

通过基座模型的技术赋能，我们可以支持不同形态的产品。真正难的是让大模型、更大的模型更牛逼。
现在的行业问题在于：一个700T算力的芯片可能跑出来的效果跟100-200T差不多，就意味着你更多的参数并没有产生更大的作用，让大的模型更好是难的。大模型好了之后蒸馏出来，让小模型变牛逼是很简单的。
当我们的基座模型出来之后，我们会针对不同的芯片去适配不同的场景：针对100T左右的“小模型端到端”，我们会针对极致经济化的辅助驾驶方案；针对500T算力的，可以提供更可靠的辅助驾驶；针对千T级的，我们针对的是Robotaxi场景。
最重要的是，我们的所有产品都共享一套基座模型，同时所有的基座模型都是基于我们的海量数据不断反馈、不断提升的。目前我们有超过30万台的车辆，累计道路也超过了1.1亿公里，这些都将成为我们的数据飞轮，推动我们的能力提升。

回顾元戎启行的技术层面，我们一直起到了中国领先的效果。
从最早我们提出来最早做无图的（2023年国内首个发布不依赖高精度地图的），2024年首个量产端到端的，2025年第三方第一个做出VLA的，历史上都有Track Record。再到今年我们首个提出要基于基座模型进行下一个范式的提升，把整个自动驾驶从小模型时代变成大模型时代。
我认为今年可能是1个Timing，依托于多模态的进展。其实真正对智驾最大的竞争，我觉得不是来自于同行之间的竞争，是来自于大模型公司的降维打击。大模型公司在多模态取得了巨大进展之后，把多模态的能力落地到自动驾驶场景里面。说到底，多模态就是Next Token Prediction，预测物理世界下一帧发生什么，再到自动驾驶数据预测到物理世界中你的下个行为是什么，这个仅仅只是一步之遥。

2026年，我们将迈向新的征程。
首先，我们的目标是100万辆的城区NOA交付，这些车子都具备数据回传能力，都是我们基座模型的数据来源。同时我们希望MPCI可以提供到超过1000公里，这依赖基座模型能力、依赖端到端AI以及AI Safety的架构实现1000公里的城市MPCI。
同时，我们希望今年用户的高频使用年限能超过50%，而不仅仅是2025年的15%，从让辅助驾驶真正从可用变成爱用。更进一步，下一步其实是做到万公里级的MPCI，实现Robotaxi。
回到咱们做辅助驾驶的初心，我们相信技术最终的目标和愿景是让出行更安全、更可靠，希望能够通过技术创新，让辅助驾驶成为千家万户日常的一部分。我也希望元戎启行能够成为未来的基础设施，成为物理AI的基础设施。

接下来的北京车展，我们首席科学家（元戎启行有个重量级的首席科学家加入了我们）会进行公司最新的技术进展介绍，我在这里也不多说了。以前都是我做的比较多，接下来我会把这个交给我们的首席科学家，会讲到整个多模态在自动驾驶的进展，整个基座模型会带来完全不一样的效果。也欢迎大家来到车展现场，见证辅助驾驶全面迈向多模态大模型的这样的一个时代。
谢谢！

全文采用通义听悟语音转文字，DeepSeek去口语化

发布于北京