轰鸣的小跑SVM 26-03-17 13:57
微博认证:汽车达人 微博新知博主 汽车博主

#小鹏第二代VLA开启推送# 我说过今年的一个结论---“智驾如果还没有达到大规模量产推广水平的话,那么自研窗口已经事实上关闭了”。七八年前市面上的智驾实际上是存在博弈的,品牌方的自研是有优势的,和自己底部的机械架构深度融合,积累自己的数据,供应商方案也是有优势的,因为它们穿透了多个品牌,可以短时有更好的成本平摊。但是品牌方时至今日基本上已经结束博弈了---留下了少数头部,其他人永远追不上了。

原因就在于何小鹏说的这句话---“每月花3个亿去赌这个事情,连续十几个月,当时我也是心里面慌得一批”。

他其实还只说了过去一年在VLA上的事情,如果你把尺度放大到过去十年,每年几十个亿,每年几千人,每年积累那么多的数据、算法,这些沉淀下来,你就会意识到你根本追不上了。在长期主义里,技术突破甚至只是表面问题,核心我们强调过很多次了,是“体系”的建成问题,而VLA2.0体验在市场上意义上走到头部的今天,一切事情都有答案了。

过去几年智能驾驶行业一直有一个隐形分叉,一条路是“工程优化派”,主要是基于原有规则+模块化架构上不断打补丁,一点点补齐边角场景。另一条路是“模型重构派”,直接推翻原来的范式,用大模型去重新理解世界。端到端这个词尽管已经火了好久了---但如果你掀开这些故事去回顾的话,你会发现在小鹏正式在市场上证明端到端这条路径可行之前,并没有人愿意“ALL IN”这条赛道。

对现有的系统修修补补是惯性思维,是常态,它可控、可验证,成本也是线性增长的,你多招点人、多堆点规则,总能往前挪一点。而“迭代”,推倒重来,换一套更好的系统,真的是需要有很大勇气去做决策的。规则这套东西本质上是“穷举已知世界”,而自动驾驶真正难的,从来不是已知场景,而是那些没见过的、组合出来的、带不确定性的长尾。规则可以写100万条,但真实世界每天都会给你第100万零1种情况。这就是为什么很多用户的真实体验,在高速、主干道是不错的,到了小路就崩盘了;白天也不错,到了晚上、雨天就挂了;标准场景也可以丝滑,一到复杂情况就开始“罚站”。

范式永远有天花板,且是肉眼可见的天花板。
从固定范式走到VLA,本质上就是一件非常激进的事---你要承认现有架构的局限性,你又要向往那个目标中的未来,那么在当下显而易见要做的就是承认“规则这条路,走不到L4”。

但是“承认局限性”是件很难很难的事情。
因为一旦你决定从规则转向大模型,就意味着三件事同时在发生。

首先就是成本结构完全变了,它不是多招点算法工程师的问题,而是直接进入“算力+数据+模型”的烧钱模式。

算力要求你堆GPU---我们举个例子,小鹏说“三万卡”,肯定不是低端的算力,至少是类似 NVIDIA A100 / NVIDIA H100 / H800 这一档的算力卡,那么三万张多少钱呢?目前A100约 8-12万,H100约 20-30万,H800约 15-25万,一张。三万卡差不多在300亿人民币左右。而且,GPU本身通常只占整个算力集群成本的40%–60%。机柜、网络、数据中心、运维,哪怕是电费,都还有额外的预算,而且每个月3个亿,其实还不是真正的研发费用,它只是在买“未来的可能性”而已---科技日说的VLA的故事是,25年的5月一个“偶然版本”看到了曙光。如果我们错过了这个“偶然版本”呢?

第二,是不确定性的暴增。
规则系统是“可解释、可拆解”的,你知道每个模块在干嘛;但大模型是“涌现”的,你只能通过结果去验证,而不是逐条推导,这也是为什么大师兄说“心里慌”,相比于担心做不出来,更让人担心的是做出来的东西,你控制不了。

第三,在于组织重构。
你不能再按感知、规划、控制那种模块化团队去做研发了,而要围绕“模型+数据闭环”重建体系。而在一个数千人规模的团队里,要做组织架构的调整,这本身就比技术更难。就用户来说VLA2.0似乎赌的只是一个功能,一种体验。但对小鹏来说,它赌的是一整套技术路线+组织形态。

这是不成功便成仁的事情。
在这个决策背后,还有一个更现实的问题,就是时间窗口。
智驾这件事,过去几年间已经从“有没有”进入到了“大家都有”,“大家都好用”的阶段了。我想如果不说小鹏先撕开端到端的口子,今天我们的体验会来得更晚,但是端到端的能力让市场一夜之间都得到了“全国都能开”的水准。

那么,接下里就是“谁先能跨过去”的阶段了。
L2大家其实都能做,L3卡在了责任上,而真正的分水岭就是L4。
但L4的关键是啥呢?它不是什么多快、多识别几个物体,而是“泛化能力”,你能不能在没有见过的场景下,做出合理的决策。规控对这类场景是线性增长的,只有大模型可以完成非线性的跃迁,这也是为什么现在大家都在讲“端到端”“大模型”“物理AI”。

但是明知道没有第二条路的情况下,为什么不是所有人都All in呢?因为这条路太贵了,短期回报极差。端到端意义上已经越过了“小投入大回报”的节点,接下来的每一分进步你都要花十分付出,而且甚至有一段时间,体验可能还不如原来的规则系统稳定,这对一家上市公司来说,是很难承受的。

于是多数公司会选择“渐进式过渡”,而小鹏义无反顾的“底层变更”,事实上就是豪赌---然后我们再回过头来看昨晚的访谈,其实他们对于VLA2.0一直在讲一件事,“像人一样思考”。

比如封路停14秒那个案例的背后,系统在“没有导航依赖”的状态下自主去做路径推演,一战封神。夜市、人车混行、无导航找路这些场景,背后都是这个逻辑下的表现---系统试图理解“物理世界”,而不是匹配“预设规则”。

范式差异就在这了。
也正因为这样,我们看到了昨天这场“Ask me anything"。
因为当你用大模型做决策的时候,用户天然是不信任的,一个系统“自己想”,那它万一想错了呢?所以你必须解释,必须让用户知道它是怎么“想”的---在这个阶段,行业开始进入“解释能力竞争”了。

技术做出来,还要讲明白---老板必须亲自下场。
而你回顾下传统企业,老板在哪里呢?你回顾下新势力,学历到位了、“懂技术”的老板,有多少个呢?

我们最后说说这个“慌”。
它说明了一件事,二代VLA不只是一个确定性的创新而已,它是一次真正的技术跃迁尝试。而真正的跃迁,从来就不是算清楚ROI再去做任何尝试的,完完全全,都是在不确定里下注。

“每个月烧3个亿”,用现金换一个更高维的能力上限,刺激吗?

但有一点我觉得是确定的,今天二代VLA展示的状态,我们可以看到这条路已经跑通了,而至此之后,行业的分层会被彻底拉开。

剩下的,就交给时间了。

发布于 广东