小鹏XMind 有两个挺有意思的设计,
第一个很显然是把worldmodel 作为一部分嵌入到了VLA模块里,通过worldmodel补上对世界的预测和理解。
第二个就是这个worldmodel并不是一个广义上视频推理模块,而是用最简化的思维导图,没有纹理,只剩下关键抽象,用来降低计算耗费。
图片推理太复杂,就做草图推理。同样也能学到变化的规律。
工程上很有意思的取舍。
#智驾体验##新能源大牛说#
发布于 上海
