轰鸣的小跑SVM 25-12-23 08:00
微博认证:汽车达人 微博新知博主 汽车博主

#技术巡猎# #小鹏# 一种自动驾驶任务的处理方法、装置、设备及介质---这个专利……讲的是主要是“如何让系统提前做好准备”。
导航信息终于不只是说一句“前方右转”就完事了,这个信息被塞进了模型里,变成可计算的决策上下文。

车载感知的硬约束大家是能有所感知的。
摄像头/雷达再强,稳定可用的也就一两百米量级。可城市驾驶里,很多动作得提前三五百米就开始筹划---右转专用道要不要并线、匝道口要不要让行、红绿灯口是直行优先还是左转待转。人类靠的是什么呢?靠导航和记忆来实现。很多自动驾驶系统,信息链条里缺的正是这一段“超视距”。

这个专利咋做的呢?导航引导信息(比如“直行123.4米右转”)和多视角视觉一起喂给了 VLM(视觉语言模型),让它输出一组“动作的概率分布”。注意了,这里不是要求只吐一句文本答案就结束了,而是把“继续直行/并入右转车道/减速等待”等动作,用概率量化出来。这样在规划端拿到的就不是一句话那种鸡汤,而是能用于求解代价、能做权衡的数字信号。

我很喜欢它处理导航的那段小心思---它并不完全相信单条导航文本。
专利里把地图路线做成了“导航视频”:沿路线取连续图像,按预计距离和时长设定播放速率,再抽帧喂给模型生成多个候选导航描述。然后用一致性评分把最靠谱的那条挑出来:方向关键词有没有交集、距离数字差异大不大、词汇层面的相似度(甚至提了用杰卡德指数做量化)。这其实是在用“多版本互相校对”的方式,压掉模型输出里最容易出现的飘忽感---对车来说,导航一句话错了,代价很可能就是一次危险的并线。

接下来是融合。
视觉侧先把多摄像头特征映射到鸟瞰 BEV,形成全局空间布局;文本侧得到概率特征后,还会做一次“稀疏性降低”的 MLP 处理,压缩关键决策信息。两边对齐维度后,就走两条路一起融合:一条是拼接,保留信息完整;另一条是加权相加,权重 α 可学习,初始 是0.5,还给了直觉的例子---高速时空间信息权重大一点,复杂路口时语义概率权重大一点。

它承认“导航语义”和“眼前世界”都可能不完美,所以需要一个可调的平衡杆,而不是定死规则。

最后的话,融合特征喂给了多任务网络:感知、预测、规划一起用的是同一份上下文。专
利甚至把典型的实践写了出来:感知举了 YOLOv8的例子,预测是 Transformer,规划是MPC。
你能感觉到它的野心不是“端到端一把梭哈”,而是试着吧导航这条信息流,真正纳入到体系里,让感知-预测-规划在同一套语境里,减少那种“感知觉得OK,但是规划又觉得NG”的内耗。

专利强调了动态更新,但真正落地时,兜底策略和失配检测还是很重要的---什么时候要相信导航,什么时候要信眼前的车道线和路权,这是安全工程的分水岭。嗯,“类人化规划”从口号拉回到信息结构上以后,花里胡哨的不多。

发布于 广东