小鹏第二代VLA开启推送

#小鹏第二代VLA开启推送# 我说过今年的一个结论---“智驾如果还没有达到大规模量产推广水平的话，那么自研窗口已经事实上关闭了”。七八年前市面上的智驾实际上是存在博弈的，品牌方的自研是有优势的，和自己底部的机械架构深度融合，积累自己的数据，供应商方案也是有优势的，因为它们穿透了多个品牌，可以短时有更好的成本平摊。但是品牌方时至今日基本上已经结束博弈了---留下了少数头部，其他人永远追不上了。

原因就在于何小鹏说的这句话---“每月花3个亿去赌这个事情，连续十几个月，当时我也是心里面慌得一批”。

他其实还只说了过去一年在VLA上的事情，如果你把尺度放大到过去十年，每年几十个亿，每年几千人，每年积累那么多的数据、算法，这些沉淀下来，你就会意识到你根本追不上了。在长期主义里，技术突破甚至只是表面问题，核心我们强调过很多次了，是“体系”的建成问题，而VLA2.0体验在市场上意义上走到头部的今天，一切事情都有答案了。

过去几年智能驾驶行业一直有一个隐形分叉，一条路是“工程优化派”，主要是基于原有规则+模块化架构上不断打补丁，一点点补齐边角场景。另一条路是“模型重构派”，直接推翻原来的范式，用大模型去重新理解世界。端到端这个词尽管已经火了好久了---但如果你掀开这些故事去回顾的话，你会发现在小鹏正式在市场上证明端到端这条路径可行之前，并没有人愿意“ALL IN”这条赛道。

对现有的系统修修补补是惯性思维，是常态，它可控、可验证，成本也是线性增长的，你多招点人、多堆点规则，总能往前挪一点。而“迭代”，推倒重来，换一套更好的系统，真的是需要有很大勇气去做决策的。规则这套东西本质上是“穷举已知世界”，而自动驾驶真正难的，从来不是已知场景，而是那些没见过的、组合出来的、带不确定性的长尾。规则可以写100万条，但真实世界每天都会给你第100万零1种情况。这就是为什么很多用户的真实体验，在高速、主干道是不错的，到了小路就崩盘了；白天也不错，到了晚上、雨天就挂了；标准场景也可以丝滑，一到复杂情况就开始“罚站”。

范式永远有天花板，且是肉眼可见的天花板。
从固定范式走到VLA，本质上就是一件非常激进的事---你要承认现有架构的局限性，你又要向往那个目标中的未来，那么在当下显而易见要做的就是承认“规则这条路，走不到L4”。

但是“承认局限性”是件很难很难的事情。
因为一旦你决定从规则转向大模型，就意味着三件事同时在发生。

首先就是成本结构完全变了，它不是多招点算法工程师的问题，而是直接进入“算力+数据+模型”的烧钱模式。

算力要求你堆GPU---我们举个例子，小鹏说“三万卡”，肯定不是低端的算力，至少是类似 NVIDIA A100 / NVIDIA H100 / H800 这一档的算力卡，那么三万张多少钱呢？目前A100约 8-12万，H100约 20-30万，H800约 15-25万，一张。三万卡差不多在300亿人民币左右。而且，GPU本身通常只占整个算力集群成本的40%–60%。机柜、网络、数据中心、运维，哪怕是电费，都还有额外的预算，而且每个月3个亿，其实还不是真正的研发费用，它只是在买“未来的可能性”而已---科技日说的VLA的故事是，25年的5月一个“偶然版本”看到了曙光。如果我们错过了这个“偶然版本”呢？

第二，是不确定性的暴增。
规则系统是“可解释、可拆解”的，你知道每个模块在干嘛；但大模型是“涌现”的，你只能通过结果去验证，而不是逐条推导，这也是为什么大师兄说“心里慌”，相比于担心做不出来，更让人担心的是做出来的东西，你控制不了。

第三，在于组织重构。
你不能再按感知、规划、控制那种模块化团队去做研发了，而要围绕“模型+数据闭环”重建体系。而在一个数千人规模的团队里，要做组织架构的调整，这本身就比技术更难。就用户来说VLA2.0似乎赌的只是一个功能，一种体验。但对小鹏来说，它赌的是一整套技术路线+组织形态。

这是不成功便成仁的事情。
在这个决策背后，还有一个更现实的问题，就是时间窗口。
智驾这件事，过去几年间已经从“有没有”进入到了“大家都有”，“大家都好用”的阶段了。我想如果不说小鹏先撕开端到端的口子，今天我们的体验会来得更晚，但是端到端的能力让市场一夜之间都得到了“全国都能开”的水准。

那么，接下里就是“谁先能跨过去”的阶段了。
L2大家其实都能做，L3卡在了责任上，而真正的分水岭就是L4。
但L4的关键是啥呢？它不是什么多快、多识别几个物体，而是“泛化能力”，你能不能在没有见过的场景下，做出合理的决策。规控对这类场景是线性增长的，只有大模型可以完成非线性的跃迁，这也是为什么现在大家都在讲“端到端”“大模型”“物理AI”。

但是明知道没有第二条路的情况下，为什么不是所有人都All in呢？因为这条路太贵了，短期回报极差。端到端意义上已经越过了“小投入大回报”的节点，接下来的每一分进步你都要花十分付出，而且甚至有一段时间，体验可能还不如原来的规则系统稳定，这对一家上市公司来说，是很难承受的。

于是多数公司会选择“渐进式过渡”，而小鹏义无反顾的“底层变更”，事实上就是豪赌---然后我们再回过头来看昨晚的访谈，其实他们对于VLA2.0一直在讲一件事，“像人一样思考”。

比如封路停14秒那个案例的背后，系统在“没有导航依赖”的状态下自主去做路径推演，一战封神。夜市、人车混行、无导航找路这些场景，背后都是这个逻辑下的表现---系统试图理解“物理世界”，而不是匹配“预设规则”。

范式差异就在这了。
也正因为这样，我们看到了昨天这场“Ask me anything"。
因为当你用大模型做决策的时候，用户天然是不信任的，一个系统“自己想”，那它万一想错了呢？所以你必须解释，必须让用户知道它是怎么“想”的---在这个阶段，行业开始进入“解释能力竞争”了。

技术做出来，还要讲明白---老板必须亲自下场。
而你回顾下传统企业，老板在哪里呢？你回顾下新势力，学历到位了、“懂技术”的老板，有多少个呢？

我们最后说说这个“慌”。
它说明了一件事，二代VLA不只是一个确定性的创新而已，它是一次真正的技术跃迁尝试。而真正的跃迁，从来就不是算清楚ROI再去做任何尝试的，完完全全，都是在不确定里下注。

“每个月烧3个亿”，用现金换一个更高维的能力上限，刺激吗？

但有一点我觉得是确定的，今天二代VLA展示的状态，我们可以看到这条路已经跑通了，而至此之后，行业的分层会被彻底拉开。

剩下的，就交给时间了。

发布于广东