刘先明聊VLA2_新浪新闻

一段刘先明12分半的对话采访，对辅助驾驶特别是VLA2感兴趣的建议可以看看。
里面的信息密度很高，我提炼几个我关心的要点：
1、目前团队在做的事情是增强利用世界模型进行预测的能力
也就是目前从摄像头采集输入到模型处理后输出控制信号中间，加大对感知和输出的预测，简单的说更多预测车辆自身动作和感知到的交通参与物的动作，然后做出更好的决策，希望在年内能把这个能力实现上车，以极大的强化泛化能力。
从描述上来说，我不是很理解与目前已经存在的其他交通参与者轨迹预测的能力是什么本质性差异，但是先明表示这是一个很重要的基础设施拼图。

2、世界模型和VLA2不是替代关系，不喜欢造那么多名词概念
先明提到一个与李飞飞相同的观点，就是世界模型最终是要走到与现有LLM模型不同的路线上的，通过大量的画面信息输入+真实世界物理理解和预测后输出，而要实现如同FSD做到的从每秒超过20亿tokens的输入到10-20tokens的控制信号输出，中间的信息降维需要大量的预测和判断。

3、即便是如先明这样的大佬，其实也不了解FSD详细的技术栈
可见随着技术发展，越来越多的厂家不会详细介绍自家具体的技术栈情况了，只是一些碎片化或者很笼统的东西了。
这也和LLM模型一样，除了坚持开源的，逐渐都越来越封闭，技术的竞争开始是路线之争，后续都是细节和工程打磨了。

4、数据始终是非常重要的
中国的驾驶数据和conercase数据非常多，算是一个优势

5、目前VLA2的运行逻辑是摄像头输入结合文本promt最后输出控车信号，但是不输出任何文字token

6、纯视觉和多传感器的路线问题
摄像头其实可以采集的动态范围很大（约28bit），只是最终压缩到8bit，而在摄像头处理不好的极端天气，多传感器一样也会有巨大挑战。

7、不同车型适配情况
这一点我认为是目前VLA2比FSD做的更出色地地方，因为VLA2已经适配到了很多款车（M03/G6/G7/G9/P7/P7+/X9/GX），且实际量产版本中体验反馈不错，并没有出现FSD上赛博皮卡体验明显差很多的问题

PS.先明的白头发多了好多[皱眉][皱眉][皱眉]
#小鹏汽车##小鹏第三次受邀出席国际学术顶会CVPR##小鹏物理AI引发全球媒体密集关注#

发布于广东