最近又有热议视频了，撇开谁行谁不行，聊些不一样的吧 —— 将来怎么可以行：1. 关于算力无论是BEV感知还是 E2E，模型都非常吃算力，通常帧率和感知范围都不会放的太高、特别远，甚至限于算力，会降帧降分辨率使用，具体范围大家可以根据各家SR做参考。降低帧率的损失，量化一下方便理解，车速120

最近又有热议视频了，撇开谁行谁不行，聊些不一样的吧 —— 将来怎么可以行：

1. 关于算力
无论是BEV感知还是 E2E，模型都非常吃算力，通常帧率和感知范围都不会放的太高、特别远，甚至限于算力，会降帧降分辨率使用，具体范围大家可以根据各家SR做参考。

降低帧率的损失，量化一下方便理解，车速120公里时，如果每秒15帧，3帧确认（防止鬼影和误检），基本就要损失 6～7 米的刹停距离。但换成36帧，就可以减少一半多。

关于分辨率，这是因为节约算力的另一种方式是把摄像头分区降分辨率，比如后向和侧后的都可以少一点，前向地平线往上的也可以降低，但一台 250米外，2米宽1米5高的车辆，即使在 800w 长焦摄像头里的像素点，也不是很多，加上是否需要减速，就要预测远处的车辆速度，这里就会需要上面的多帧确认逻辑，时间损失不可避免。

所以在 HW4 FSD 最新几次的更新里提到，会采用 500w 全分辨率和满帧率的图像，这也能某种角度解释视频里的表现。另一方面 E2E 也可以减少相关环节，更少的传感器可以减少时间对齐损失。

2. 关于激光雷达
很多人比较迷信单一传感器，在中低车速、低遮挡、暗光等情况下，确实可以对距离（速度）预测更为精准，但距离同样是限制，如果车距拉到250米，激光点的数量就非常有限了，帮助有限，换上横穿野猪，这个点的数量就会更小，更难以监测，这时候一个全分辨率的摄像头数据反而更可靠，或许后续的长距离新型号会有所改善。

不过在城市中，激光雷达的优势就开始体现出来了，无论是暗光还是极限切入，激光的测距准确性，就能带来更快的反应速度，不过它也会与摄像头共享一些限制，比如有静态遮挡的环岛汇入，反应速度并不能提高非常多。所以，更强大的模型理解场景，或者牺牲效率进行防御性减速，才能进一步平衡好效率和安全。

3. 关于模型架构
端到端和两段式，之前有提到过，上限上虽然彼此接近，但两段式还是会受限感知标注局限，有信息的丢失，在一些极限场景下，还是会发现 E2E 的更高一些。这些测试还不涉及太多需要额外理解的场景，比如被吹歪的红绿灯、站在路中假装交警指挥交通的保安……

大家往往喜欢用人类司机来对比，其实人的图像感知能力是很强的，研究里预估下来，人眼是接近一亿像素的立体视觉、以及非常广的光线范围（极暗和极强）、最少24帧的图像处理速度，对比现在的硬件，无论今天的传感器、算力，都还是有发展空间的。趋势也非常清晰，高帧率、全分辨率的技术架构，全光照的摄像头、更长距离的传感器，更强更强的算力，都是迈向下一步的必然。

发布于中国香港