小鹏VLA论文发布

关于小鹏最新VLA论文解读EvoDriveVLA [举手]

这篇2026年arXiv预印本由北京大学+小鹏汽车联合提出，是面向自动驾驶【视觉-语言-动作】（VLA）模型的协同感知-规划蒸馏框架，核心解决VLA模型解冻视觉编码器后感知退化、长期规划轨迹不稳定两大痛点，在开环/闭环评测均达到SOTA。

现有自动驾驶VLA模型存在三大致命缺陷：
1️⃣感知退化：解冻视觉编码器微调后，预训练的通用视觉表征丢失，感知鲁棒性下降
2️⃣教师无效：传统蒸馏用同设置训练的教师模型，规划能力无优势，无法提供有效知识
3️⃣轨迹单一：多轨迹蒸馏依赖预设规划词汇表，无法适配真实驾驶动态场景

核心创新：协同感知-规划双蒸馏框架
EvoDriveVLA = 自锚定视觉蒸馏 + 神谕引导轨迹蒸馏，双模块协同优化

1️⃣自锚定视觉蒸馏（解决感知退化）
- 设计自锚定教师：复制微调前的学生视觉编码器，提供稳定视觉锚点约束
- 轨迹引导关键区域感知：用AnchorFormer给场景关键区域分配自适应锚定权重，强化重要区域约束
- 损失函数：加权MSE损失，约束学生视觉表征与自锚定教师对齐，保留预训练能力

2️⃣神谕引导轨迹蒸馏（解决规划不稳定）
- 未来感知神谕教师：引入未来场景图像、自车状态等特权信息，轨迹预测精度远超普通模型
- 粗到细轨迹迭代优化：先生成粗轨迹，再输入模型精细化，提升轨迹平滑度与合理性
- MC-Dropout采样：对隐藏层随机扰动，生成多样高质量轨迹候选，筛选最优作为软目标
- 损失函数：隐层MSE+分布KL散度，双维度对齐学生与神谕教师

3️⃣总训练损失

实验验证：效果碾压主流方法
1️⃣开环评测（nuScenes数据集）
- 对比传统、LLM、蒸馏三类基线，L2误差与碰撞率均达最优
- 相较OpenDriveVLA：L2误差降21%，碰撞率降40%
- 相较DiMA（最优蒸馏基线）：L2误差再降9%

2️⃣闭环评测（NAVSIM数据集）
- PDMS综合得分85.3，超越所有相机-only方法
- 3B小模型经蒸馏后，性能超过Qwen2.5-VL 8B、InternVL3-8B大模型
- 无碰撞率98.0%、可行驶区域合规率93.3%，安全性大幅提升

3️⃣消融实验
四大组件缺一不可：轨迹蒸馏→粗细化→MC采样→视觉蒸馏，逐层提升精度

技术亮点与行业价值：
✅技术亮点
- 双教师设计：自锚定教师保感知，神谕教师强规划，分工明确
- 无额外参数量：教师模型冻结，仅优化学生与AnchorFormer，部署友好
- 泛化性强：兼容主流VLA基座（Qwen2.5-VL），可直接迁移

✅行业价值
- 为端到端自动驾驶VLA模型提供高效蒸馏方案，小模型=大模型性能
- 解决量产落地核心痛点：感知稳定、长期规划安全、计算成本低
- 小鹏汽车+北大联合研发，具备车规级落地潜力

✅局限性与未来方向
1. 神谕教师依赖未来特权信息，仅用于训练，推理不可用
2. 未覆盖极端天气、复杂路口等长尾场景
3. 未来可结合强化学习、世界模型，进一步提升闭环适应性

EvoDriveVLA是自动驾驶VLA模型蒸馏的里程碑工作，通过协同感知-规划双蒸馏，同时解决感知退化与规划不稳定问题，在开环/闭环均实现SOTA，为轻量化、高安全的量产自动驾驶模型提供了全新技术路线#大v聊车##小鹏第二代VLA#

发布于浙江