特斯拉最近公开了一份关于车道连接关系的继续申请:US 2026/0170852 A1。它延续了此前已授权的 Lane Connectivity 专利线,进一步披露了 FSD 如何用视觉模型理解复杂路口里的车道连接关系。,最有意思的地方在于:它把复杂路口里的车道关系,做成了一个类似 LLM 的序列预测问题。
很多人理解车道感知,会先想到车道线识别。但真正难的地方在路口。
路口中间经常没有标线,入口车道和出口车道也未必对齐。遇到大车遮挡、施工改道、标线磨损,车辆依然要判断:当前这条车道过了路口以后,应该接到哪条车道。
特斯拉的方案是:摄像头图像先进入骨干网络提取视觉特征,再通过多目注意力机制融合到统一的 BEV / 三维空间表示里,最后交给自回归 Transformer,逐步生成车道连接图。
关键在“自回归”。
它的工作方式很像语言模型生成句子:基于前面的 token,继续预测下一个代表空间位置的 token。可以理解为,模型先确定一个车道点,再根据上下文继续推下一个点,再下一个点,直到这条车道的连接关系被补全;之后继续生成其他车道。
专利里还提到,自回归模块可以在 64、96、108 这样的循环上限内反复生成车道点。它说明系统处理道路结构时,是在把道路关系转成可计算、可续写、可推理的 token 序列。
它还会给这些点赋予语义:哪里是合流点,哪里是分叉点,哪里属于路口内部的虚拟车道,车道之间到底是延续、汇入,还是分叉。
遮挡问题靠时间维度来补。系统会保留此前帧里的空间特征,并根据车辆自身运动做对齐。比如车往前开了 20 米,历史特征也会同步平移到新的坐标系里。这样即使当前画面被大车挡住,或者路面标线不完整,模型仍然可以参考历史视觉信息,维持对车道走向的连续判断,避免“空间失忆”。
这套方案和强依赖高精地图的 Robotaxi 路线形成了明显对比。特斯拉没有把地图排除在外,地图可以作为辅助线索;一旦地图过时、不可靠,系统会让网络更多依赖实时视觉来推理路口结构。
这项专利透露出的方向很清楚:FSD 要进一步理解道路拓扑,不能只停留在车道线层面。
从 BEV,到占用网络,再到这种自回归车道连接图,特斯拉一直在做一件事:把连续、复杂、充满不确定性的物理世界,压缩成模型可以理解和预测的 token 空间。
