铁皮摄影师 26-04-30 23:16
微博认证:微博原创视频博主

作为一个重度 AIGC 使用者,我想从另外一个叙事角度去讲一下小鹏的世界模型加速器:X-Cache,各位专家帮忙看看我理解得对不对!

之前 xianming 在发布会上展示的 X-World,按我肤浅地理解,就是一个大型 AIGC 生成模型,可以生成各种至少七个同步视角的真实路况视频流,产生大量高品质行车数据来训练智驾模型。当然,这也就意味着,这个模型的效率高低直接影响了这些数据的生成数量以及耗费的时间算力等等等等,更直接地讲就是能否大大节约 token 来产生更多优质的数据。

做 AIGC 的童鞋经常吐槽说用 Seedance 如果不充 VIP 的话,排队排几个小时出不来 10 秒钟的结果。这也是因为算力资源方面受到了限制,要用加价限制免费使用人群的占用来确保部分用户的效率。

而 X-Cache 的出现,类似当年 JPG 的出现解决了 BMP 的尴尬,H.264 和 H.265 的出现节约了视频流的带宽,在无需额外增加硬件投入成本的前提下大大提升 token 的利用率,产生更多更优质的视频素材用来训练智驾模型。

开车的脑子不好使的话,有啥雷达都没用,以前老说要把这个脑子训练好需要大量行车数据,所以如果车队数量有优势的就肯定处于领先地位。但其实用于训练的数据本身也需要筛选和择优,并且对于所谓更强的泛化能力来讲,其实对于行车数据是需要可控地有针对性进行选择,特别是弱势场景需要强化训练,所以利用 X-World 才能更可控,并且确保拥有更充分的实际例子。

基于小鹏 VLA2 这种明确要进行海外扩张的产品定位,并且已经在进行海外测试的开发进度,对于不同地域道路特性的训练需求很强烈。有了 X-World 就为此奠定了实际落地的可能性,而 X-Cache 就是重要的加速器了!!

大家看看图一这个对比图,使用 X-Cache 的生成耗时可以优化两倍多,但得出的图像结果保持一致。 #小鹏第二代vla发布# #大v聊车#

发布于 广东