VLA 2.0 发布会上首次展示了X-World,仿真场景从一年前的3万个,增加到50多万个,从VLA 2.0的实际表现来看,世界模型的作用非常大
1、在X-World当中进行自我博弈,也就是强化学习训练,让它的轨迹更稳
2、生成更多长尾场景,让VLA 2.0上限提高;你可以发现它比现在很多端到端辅助驾驶可以应对的场景更多,错车靠右的能力为什么VLA 2.0可以做到?世界模型很重要,可以有效减少卡死
3、同时图2可以看出,X-World能够生成非常逼真的海外场景,加速海外VLA 2.0的落地
小鹏VLA 2.0 说是以L4能力为基准,要让能力持续得到提升,世界模型的作用非常重要,但是目前世界模型的延迟,还有成本居高不下是个问题,小鹏发布了新的技术报告,X-Cache 加速器
在物理世界当中,行车画面大部分变化是缓慢并且平滑的,相邻的视频块当中,相同的特征有非常高的相似性,比如说道路、树,还有远处建筑,X-Cache通过计算,如果相似度比较大的画面,直接复用上一段的计算结果,跳过整层计算,为了保证准确性,X-Cache会生成一个“指纹”,独立评估每个块,如果评估通过,才会复用
X-Cache可以达到71%块跳过率,2.6X推理加速,画质几乎无损,X-Cache的PSNR≥51dB,这个数值在40dB以上已经很接近原图,如果是超过50dB,那几乎看不出区别了,X-Cache生成的7Cam 视频达到了这个效果
目前X-Cache已经在X-World上得到应用,下面2个对比视频可以对照一下,右边是由X-Cache生成的,第一个是快速路,第二个很像广州城区小路模拟,两者几乎没有区别
官方对VLA2.0、X-World,X-Cache的作用进行了总结:
-VLA 2.0 负责感知和决策,用户可直接感知的能力输出端
-X-World承担虚实映射与场景推演,是系统进化的核心支撑
-X-Cache提供高效推理能力,是支撑大规模仿真运行的加速引擎
在主页里面,X-Cache的训练费用是“0”,X-Cache的存在就是解决成本问题
先明经常说他们已经找到了快速迭代的方法,且每次迭代都能有进步,这个在当下一段式的来说是非常困难的,真正每次迭代都是正向的只有FSD,但通过VLA 2.0的每次更新,确实都是有进步的,背后是全链路的闭环能力
X-Cache的官网链接在这里🔗:http://t.cn/AXJLSUQd
大家感兴趣可以看一下,有说的不对的地方麻烦批评指正
#新能源汽车#
