元戎启行周光百人会论坛演讲全文:
大家好!我今天要分享的是“基座模型,让认知再次进化”。
过去几年,自动驾驶从2020年开始高速发展,每年都有明显的进步。但是我也看到了过去几年,随着场景复杂度不停地提升,传统小模型的自动驾驶提升变得越来越困难。尤其是在最近,各种版本的发布,你会发现有个很明显的“跷跷板效应”:往往是说某些智驾在某些场景——比如早上跑得好,可能中午会差一些,晚高峰会差一些;再比如说在上海跑得好,换个城市就不行。我们看到了很多现象,本质上来讲是今天智驾的小模型智驾自身能力的困境。
要真正做好这个的话,我觉得是全面的走向大模型,走向基座模型。智驾下一个阶段进展,不仅仅只是感知或者一些简单的“端到端”,我认为是一个整体认知层面的提升。
基座模型是实现这一核心的最重要的技术。在大洋彼岸,不管是特斯拉也好,Waymo也好,其实已经完成了这个变化,用基座模型驱动整个公司的研发。无图我觉得是很早的事情了。在去年做VLA的点上,我认为整个大模型还不是特别的Ready。我个人的看法是,在2025年的时候,整个大模型多模态并没有明显的进展。直到今年年初的时候,随着Gemini的发布,我们看到大模型在多模态领域取得了非常明显的进展。
最近也有很多大模型公司开始重新去看自动驾驶,至少我知道在国内最头部的大模型公司开始做自动驾驶了,而且参与这个事情的是他们多模态的负责人。为什么会有这样的动作?因为在物理AI这个场景里面,只有车子能够为你提供这么多高质量的数据。对于一个头部大模型公司来讲,做自动驾驶不是看License Fee,不是看挣这么点钱,而是要通过多模态基座模型的能力验证物理AI。
在分享技术之前,我先分享一下我们的数据。截至目前为止,我们已经交付了近30万台的城区NOA功能。在过去一年里,我们的累计行驶里程超过了13亿公里,用户使用时长超过了4000多万小时,避免了14万次的前向碰撞,避免了4.7万次的后向碰撞事故。这些都是真实的数据,也证明了辅助驾驶在日常生活中可以提供安全的价值。
从行业竞争格局来看,城区辅助L2+辅助驾驶正在快速集中。在2025年第四季度,包含我们在内的行业前三占据了99%的市场份额。我们这里是15.5%,稳居行业第一梯队。随着合作车型的持续落地和交付规模的扩大,我们的市场份额也在稳步提升。我们最近的一款车出来非常好,基本上日订单我们看到都是几千台,这也意味着我们城区的NOA解决方案正在被越来越多的车企和用户选择。
但是随着城区NOA规模化落地的过程中,我们也看到了越来越明显的行业现象:整个自动驾驶投入非常大,比如在2025年投入规模超过了1200亿,最好的芯片算力也达到了750T算力,但是真实在用户层面,你会发现用户的粘性并不是很强,渗透率也就15%左右。
这也是行业里面今天遇到的一个明显的落差:技术的投入增加,但消费者层面并没有把这个城区辅助驾驶作为日常的工具。怎么样将辅助驾驶从可用走向爱用、走向依赖?我觉得是接下来行业必须解决的问题。
这些也是有底层的技术原因驱动的。大家可能习惯了端到端出来,整个行业有一个快速的进展——2024年、2025年整个进展是非常快速的。但是2024年的进展是最快速的,到2025年也有其他家的跟进。
作为行业头部来讲,我认为2024年是进展最快的一年,包含我们在内,包括理想、小鹏、华为,在那年的进展是非常快的。2025年你会发现,头部的增长变慢了,第二梯队的人可能有比较快的增长。这是看到的行业现象。
最本质的原因是小模型的自动驾驶存在非常严重的“跷跷板效应”。说到底,今天已经量产的中国的自动驾驶里面,参数量说实话都非常小,都是在1B以下的,甚至在0.1B以下的模型,跑在芯片上典型的算力是在100T到200T。
这是一个小模型智驾的典型代表,是以卷积为主导、少量Transformer的架构。表现就在于:软件版本不停发版,你今天这版可能在某些场景好,可能在更新一版这个场景变差了、另外一个场景变好了。
整个进展是非常跳跃的,而且进展非常缓慢,这是小模型的问题,是模型Capacity、模型训练的问题。这种反复的修补、不停地迭代,并没有本质的提升。
在2025年的时候,我们也在行业里面第一个提出了VLA。其实在2024年我们提的端到端,也是中国第一个量产落地端到端的。2025年的VLA,其实还是在说VLA技术。在2025年这个点上,VLA的本质是深耕于OOM、深耕于多模态。多模态的最大进展其实是今年年初,我们看到了Gemini的发布,也看到了Sora的发布,整个多模态能力提升了一个台阶。这个技术的突破,我认为会非常快速地惠及不管是机器人还是自动驾驶。
怎么样解决小模型的“跷跷板”问题?我认为要把从小模型的自动驾驶变化成大模型的范式,用Scaling Law的形式去解决这个问题。我们的选择是选用整个的基座模型。不管是从模型的Scaling还是数据的Scaling层面同步推进,我们会打造40B参数的基座模型,统一整个——其实自动驾驶公司本质上来讲只做三件事:第一件事是有一个Driver(司机系统),就是今天我们用在车上的这套“端到端”自动驾驶系统;第二是分析的任务,比如路上路测测试,一个场景给你,你怎么去分析判断,这也是公司需要做的;第三是评测评价系统(Critic的系统)。整个系统里面三个功能,真正训练只有第一个系统,但是真正的精进是所有模块、整个模型都会参与。你放在车里的只是Driver。Waymo和特斯拉整个都基于基座模型,从Driver、分析、整合到一个评测体系。带来最大的变化在于:我们的Driver负责视觉输入生成驾驶并实时决策(因为算力的限制),分析过程是对关键场景的分析诊断。现在像以前是有人看Case来诊断,现在逐渐变成了用Gemini模型、千问各种模型帮你做一些诊断理解,最终是一个评测评价体系,可能是一个模拟器或世界模型模拟器。这种模型不仅会开车,同时还会理解怎么开并评估怎么样好。你的所有自动驾驶公司做的所有事情,都应该在基座模型里面,每一个步骤得到的信息的熵都应该沉淀在你的模型里面、沉淀在你的Driver里面。这样子的话,我们的驾驶系统就从过去的执行系统变成了一个认知的系统。但这整套搭建是非常不一样的。我们在过去的半年到一年中,花了非常多时间去重构整套体系,它不再是一个传统的自动驾驶范式,而是一个完整的大模型方式来做这个事情。
基于我们重构后的基座模型,我们整个重新构建了数据闭环,从传统的依赖人工的数据闭环变成通过基座模型去做,整个迭代周期非常快,从传统可能需要一周几天的一个迭代周期速度到了几个小时,而且准度精度非常高,每一个步骤都沉淀出模型的经验,让训练的效率更高,持续去提升辅助驾驶的能力。
通过基座模型的技术赋能,我们可以支持不同形态的产品。真正难的是让大模型、更大的模型更牛逼。
现在的行业问题在于:一个700T算力的芯片可能跑出来的效果跟100-200T差不多,就意味着你更多的参数并没有产生更大的作用,让大的模型更好是难的。大模型好了之后蒸馏出来,让小模型变牛逼是很简单的。
当我们的基座模型出来之后,我们会针对不同的芯片去适配不同的场景:针对100T左右的“小模型端到端”,我们会针对极致经济化的辅助驾驶方案;针对500T算力的,可以提供更可靠的辅助驾驶;针对千T级的,我们针对的是Robotaxi场景。
最重要的是,我们的所有产品都共享一套基座模型,同时所有的基座模型都是基于我们的海量数据不断反馈、不断提升的。目前我们有超过30万台的车辆,累计道路也超过了1.1亿公里,这些都将成为我们的数据飞轮,推动我们的能力提升。
回顾元戎启行的技术层面,我们一直起到了中国领先的效果。
从最早我们提出来最早做无图的(2023年国内首个发布不依赖高精度地图的),2024年首个量产端到端的,2025年第三方第一个做出VLA的,历史上都有Track Record。再到今年我们首个提出要基于基座模型进行下一个范式的提升,把整个自动驾驶从小模型时代变成大模型时代。
我认为今年可能是1个Timing,依托于多模态的进展。其实真正对智驾最大的竞争,我觉得不是来自于同行之间的竞争,是来自于大模型公司的降维打击。大模型公司在多模态取得了巨大进展之后,把多模态的能力落地到自动驾驶场景里面。说到底,多模态就是Next Token Prediction,预测物理世界下一帧发生什么,再到自动驾驶数据预测到物理世界中你的下个行为是什么,这个仅仅只是一步之遥。
2026年,我们将迈向新的征程。
首先,我们的目标是100万辆的城区NOA交付,这些车子都具备数据回传能力,都是我们基座模型的数据来源。同时我们希望MPCI可以提供到超过1000公里,这依赖基座模型能力、依赖端到端AI以及AI Safety的架构实现1000公里的城市MPCI。
同时,我们希望今年用户的高频使用年限能超过50%,而不仅仅是2025年的15%,从让辅助驾驶真正从可用变成爱用。更进一步,下一步其实是做到万公里级的MPCI,实现Robotaxi。
回到咱们做辅助驾驶的初心,我们相信技术最终的目标和愿景是让出行更安全、更可靠,希望能够通过技术创新,让辅助驾驶成为千家万户日常的一部分。我也希望元戎启行能够成为未来的基础设施,成为物理AI的基础设施。
接下来的北京车展,我们首席科学家(元戎启行有个重量级的首席科学家加入了我们)会进行公司最新的技术进展介绍,我在这里也不多说了。以前都是我做的比较多,接下来我会把这个交给我们的首席科学家,会讲到整个多模态在自动驾驶的进展,整个基座模型会带来完全不一样的效果。也欢迎大家来到车展现场,见证辅助驾驶全面迈向多模态大模型的这样的一个时代。
谢谢!
全文采用通义听悟语音转文字,DeepSeek去口语化
发布于 北京
