激光雷达融合算法讨论

上了激光雷达却融合不到算法里头，那是能力问题。

但是你不给上的选项，那可能是路径选择的问题。

不给上的选项还嘲讽其他用了并且还用的挺好的人，那是思想的问题。

延展阅读——为啥说有些激光雷达是摆设？

因为在早期的驾驶辅助当中，高精地图+透视视图是绝对主流，其他传感器由于检测误差和视野差异，较难融合在规控算法当中，在这个阶段，即便装配了毫米波雷达，激光雷达，大多数情况下也是“各干各的”，比如毫米波雷达主要负责距离检测，激光雷达负责高速AEB或者采集真值，视觉摄像头采集图像，生成图像坐标系配合高精地图进行辅助驾驶，所以这个时期，复杂路况误刹，不识别的情况非常频繁，因为2D 图像局限性很大，不能高效分辨近大远小的基本物理常识。

但后来，随着BEV鸟瞰图技术的普及，大家逐步解决了多源异构数据的统一问题——就是把摄像头2D图像+雷达点云映射到BEV空间，更丰富的传感器感知带来了更精确的世界坐标系，驾驶辅助的感知从2D时代进入3D时代，识别路况的精准度大大提升。

而这个时候分支出现了，特斯拉的FSD的成功，给了纯视觉摄像头方案启发，把多个摄像头的2D图像拼接成3D图像输入给Transformer，配合Occupancy占用网络，也能建立有效的“小方块”3D坐标系进行障碍物的识别和避让。

也就是说，在BEV鸟瞰图初期这个时代，头部的驾驶辅助厂商已经攻克了多传感器融合方案，但因为算力/成本/商业化等等限制，到底是融合方案还是单视觉方案，各家会自己来选择。

后面从规控到端到端，其实整体的感知并没有发生巨大变化，下面我们着重聊一下，为啥有人说“激光雷达”未必好用？——其实是优先级的问题。

是因为融合感知方案有几个类型，早期采用“后融合”方案，优先一类传感器检测+多传感器决策，也就是说我摄像头检测到了有人，然后把数据传输给决策中心，决策中心调用其他传感器来double check是否真有这个人，这就是初期“各干各的”时代的多传感器逻辑，感知精度差，而且需要大量的预存的“白名单”来避免误刹或者不刹，比如天上飞的塑料袋，下垂的树枝等等。这个阶段，激光雷达/毫米波雷达由于性能，时延，先验信息完整度等原因，经常无发生正确的进行融合后的验证决策，所以被一众视觉方案诟病——无用论。

而另一个极端——先融合，是在BEV+Transformer时期被提出的逻辑，就是把所有异构的原始传感器数据合完整信息先进行同步和校准，然后再交给算法进行目标检测和决策。这是个近乎完美的方案，但对于硬件——超高算力和传感器精度要求很高，并且融合的工程难度大，比如某个传感器受到环境影响，产生了较差的数据，都会影响融合和决策结果。所以主流驾驶辅助也在前期并没有采用这种极端的方案。

所以最后的选择——中融合，先用视觉摄像头提取特征（前方有人），再用测距雷达提取举例信息（离我20米），配合更高线数的激光雷达点云确认形状和距离，通过卷积运算的方式融合到BEV空间，实现同步的特征检测+决策，这个逻辑视觉摄像头仍然是主力的感知设备，激光雷达则是作为辅助手段，但在环境干扰下，明显各传感器之间的互补更精确。

也就是说，目前融合感知方案里面，大多数的车企都选择的事中融合方案，而这种融合方案，激光雷达是作为辅助手段和冗余存在，简单场景下的识别靠摄像头，测距靠毫米波雷达，甚至现在有一些方案的摄像头逻辑上可以实现“伪激光雷达”生成点云图的作用进行测距，连毫米波雷达都不需要用。这也是“纯视觉”派一直对激光雷达嗤之以鼻的原因。

但事实上，所有工程都讲究的“鲁棒性”和“冗余和裕度”，毫米波雷达，4D毫米波雷达，激光雷达都是提高驾驶辅助工程可靠性的关键方式，对抗天气，环境，可能的单点失效风险等都是更优的选择。

况且，激光雷达发展到今天，我们也不知道目前的千线级激光雷达能实现什么水平的点云图，如果按照华为乾崑896线激光雷达的点云密度和实现的图像级点云能力，他输出的数据优先级是否能进一步提高，权重能否加大甚至直接来到“前融合”，都是未知数。

发布于北京