大懒货的懒货 26-03-17 12:10
微博认证:汽车博主

关于小鹏最新VLA论文解读EvoDriveVLA [举手]

这篇2026年arXiv预印本由北京大学+小鹏汽车联合提出,是面向自动驾驶【视觉-语言-动作】(VLA)模型的协同感知-规划蒸馏框架,核心解决VLA模型解冻视觉编码器后感知退化、长期规划轨迹不稳定两大痛点,在开环/闭环评测均达到SOTA。

现有自动驾驶VLA模型存在三大致命缺陷:
1️⃣感知退化:解冻视觉编码器微调后,预训练的通用视觉表征丢失,感知鲁棒性下降
2️⃣教师无效:传统蒸馏用同设置训练的教师模型,规划能力无优势,无法提供有效知识
3️⃣轨迹单一:多轨迹蒸馏依赖预设规划词汇表,无法适配真实驾驶动态场景

核心创新:协同感知-规划双蒸馏框架
EvoDriveVLA = 自锚定视觉蒸馏 + 神谕引导轨迹蒸馏,双模块协同优化

1️⃣自锚定视觉蒸馏(解决感知退化)
- 设计自锚定教师:复制微调前的学生视觉编码器,提供稳定视觉锚点约束
- 轨迹引导关键区域感知:用AnchorFormer给场景关键区域分配自适应锚定权重,强化重要区域约束
- 损失函数:加权MSE损失,约束学生视觉表征与自锚定教师对齐,保留预训练能力

2️⃣神谕引导轨迹蒸馏(解决规划不稳定)
- 未来感知神谕教师:引入未来场景图像、自车状态等特权信息,轨迹预测精度远超普通模型
- 粗到细轨迹迭代优化:先生成粗轨迹,再输入模型精细化,提升轨迹平滑度与合理性
- MC-Dropout采样:对隐藏层随机扰动,生成多样高质量轨迹候选,筛选最优作为软目标
- 损失函数:隐层MSE+分布KL散度,双维度对齐学生与神谕教师

3️⃣总训练损失

实验验证:效果碾压主流方法
1️⃣开环评测(nuScenes数据集)
- 对比传统、LLM、蒸馏三类基线,L2误差与碰撞率均达最优
- 相较OpenDriveVLA:L2误差降21%,碰撞率降40%
- 相较DiMA(最优蒸馏基线):L2误差再降9%

2️⃣闭环评测(NAVSIM数据集)
- PDMS综合得分85.3,超越所有相机-only方法
- 3B小模型经蒸馏后,性能超过Qwen2.5-VL 8B、InternVL3-8B大模型
- 无碰撞率98.0%、可行驶区域合规率93.3%,安全性大幅提升

3️⃣消融实验
四大组件缺一不可:轨迹蒸馏→粗细化→MC采样→视觉蒸馏,逐层提升精度

技术亮点与行业价值:
✅技术亮点
- 双教师设计:自锚定教师保感知,神谕教师强规划,分工明确
- 无额外参数量:教师模型冻结,仅优化学生与AnchorFormer,部署友好
- 泛化性强:兼容主流VLA基座(Qwen2.5-VL),可直接迁移

✅行业价值
- 为端到端自动驾驶VLA模型提供高效蒸馏方案,小模型=大模型性能
- 解决量产落地核心痛点:感知稳定、长期规划安全、计算成本低
- 小鹏汽车+北大联合研发,具备车规级落地潜力

✅局限性与未来方向
1. 神谕教师依赖未来特权信息,仅用于训练,推理不可用
2. 未覆盖极端天气、复杂路口等长尾场景
3. 未来可结合强化学习、世界模型,进一步提升闭环适应性

EvoDriveVLA是自动驾驶VLA模型蒸馏的里程碑工作,通过协同感知-规划双蒸馏,同时解决感知退化与规划不稳定问题,在开环/闭环均实现SOTA,为轻量化、高安全的量产自动驾驶模型提供了全新技术路线#大v聊车##小鹏第二代VLA#

发布于 浙江