跟大家同步一个好消息,我们团队有一篇论文最近被人工智能领域国际顶会AAAI 2026收录了。这篇论文是北京大学研究生同学在小鹏实习期间与我们的研发团队共同合作的成果,专为自动驾驶VLA模型定制“视觉token剪枝”新框架。
大家知道,我们的第二代VLA拆掉了“语言”这根拐杖,让模型直接消化视觉信息。而VLA模型在处理图像时,会将输入画面分解为大量视觉token,这既极大增加了车端计算量,也导致推理速度缓慢,影响模型的实时决策。VLA模型想要部署上车真正跑起来,就要攻克这个难题。
实际上,人类司机在开车时,眼睛不会盯着路边的建筑物或者远处的天空等背景区域,而是聚焦在行人、道路、车辆、交通标志、交通障碍物等前景区域。这种有选择性的信息筛选实现了快速反应。
研究团队从人类驾驶经验中获得启发,要让模型像人类驾驶员一样“有选择性地看”,要去掉冗余的视觉token信息、保留关键的视觉token信息,进而创新性地提出“使用前景-背景对抗重建策略来挑token”的新范式:用高分token重建前景,用低分token重建背景,迫使模型学会区分“什么该看、什么可扔”,这一范式被命名为FastDriveVLA。
有了理论,接下来就是具体实践了。研究团队首先构建了一个大规模的自动驾驶标注数据集nuScenes-FG,它包含 24.1 万对带有前景区域标注的图像-掩码对;然后基于这个数据集,采用像素重建策略和前景-背景对抗重建策略,训练出了一个仅有0.07B参数量的视觉token剪枝器ReconPruner,它可以即插即用,适用于不同VLA模型;最后在大规模基准测试数据集 nuScenes 上对不同剪枝方法进行了对比,实验结果显示:FastDriveVLA在25%、50%、75%等各种剪枝比例下均优于现有方法,取得了SOTA结果。
FastDriveVLA不仅有效,而且高效。研究人员从FLOPs与CUDA延迟的角度对不同剪枝方法进行了对比分析,当输入图像的初始token数量从3249减少至812时,FastDriveVLA的FLOPs直降约7.5倍;在CUDA推理延迟方面,FastDriveVLA将预填充时间提速3.7倍、将解码时间提速1.3倍,显著提升实际推理效率。
有兴趣的鹏友可以看看论文原文:http://t.cn/AX49cGOM
技术不停,探索不止。我们期待在明年基于VLA2.0为大家带来更好的智能辅助驾驶体验。💪🏻
