大懒货 26-05-09 08:36
微博认证:浙江大学心理学博士

小鹏在昨天发布了一个数据:第二代VLA推送首月智能辅助驾驶里程占比突破50%

50%这意味着什么?意味着高阶智驾不再是尝鲜功能,而是用户日常敢用、高频依赖的主力出行方式,ADAS完成从 “可用” 到 “日常高频” 的质变。这是行业首次跨越的历史性节点

“安心丝滑、全场景能力、高效率”三大体验维度全面升级,是VLA2.0凭借实现智能辅助驾驶里程占比超过50%的底层原因

小鹏的VLA2.0从公开的信息来看确实是一个拆掉了文本(L),Vision进action出的一个直连式模型,那么为了提高他的模型能力的一个增长,特别是在这样一个直连式模型上去提升对于corner case的处理,也就是解决长尾场景。

众所周知VA模型是一个黑盒,且在工程落地场景下时间消耗是必要的,那么小鹏的VLA2.0是怎么在算力充足的情况下,做到如此快的一个迭代速度呢?

最近小鹏发了一篇论文《X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference》
论文链接:http://t.cn/AXJDgxTe
解释了小鹏是怎么快速迭代与规模化落地的

小鹏搞了个叫X-World 的自动驾驶世界模型,大白话讲就是它能 1:1 还原真实世界,还能无限生成各种开车场景,让 AI 司机 (XNGP)24 小时不间断练车,安全又高效,练会的本事直接就能 OTA 到车主的车上

【世界模型】为啥一直做不好?主要还是太吃算力、太卡了,还贵。小鹏的这个世界模型有一个小巧思(X-Cache):利用自动驾驶场景的物理连续性 —— 相邻生成块的场景变化远慢于模型生成速率,举个例子就是哪怕你变道、刹车,1 秒之内车周围的场景,变化其实非常小 —— 路边的树、远处的楼、旁边的车,不会 1 秒就凭空消失,只会稍微动一点点。

X-Cache 就抓住了这个关键点,先把上一秒刚算好的画面内容,存到一个「临时仓库」里(跨块残差缓存机制);

下一秒要生成新画面的时候,先做个双重检查(结构 & 动作感知的双度量门控):
这部分画面和上一秒是不是几乎没变化?
AI 司机有没有踩刹车、打方向盘这种大动作?

只要画面没变化、也没操作,就直接把仓库里的内容(缓存)拿过来用,不用重新算一遍;但凡有一点变化,立刻重新计算,这样就是会将发生不同的情况记录下来,相同相似的利用缓存复用,缓存的就会越来越多

而且这套方案与传统跨步缓存方案是互补的,可以适配所有同架构的少步交互式自回归世界模型,无需修改模型结构、无需额外训练,即插即用,这就相当于一个数据引擎

所以这样子看,小鹏VLA2.0的实际能力表现也验证了如果我们用VA模型去做世界模型的能力增长就必须需要一个数据生成的引擎。小鹏的产品体验到底层技术构架到模型能力增长和数据生成还是很坦诚实在的去做这个事情

X-Cache大幅降低了 X-World 世界模型的推理算力门槛与延迟,让实时、长时序的自动驾驶闭环仿真、在线强化学习规模化落地成为可能;直接加速了小鹏端到端 VLA 模型的迭代闭环 —— 海量长尾场景数据生成、策略验证的效率提升 2.6 倍以上,是小鹏 VLA 2.0 推送首月即实现智驾里程渗透率破 50% 的关键底层技术支撑。
#小鹏第二代VLA辅助驾驶里程占比超5成##AI辅助驾驶里程占比首次超过人类驾驶#

发布于 北京