最近又有热议视频了,撇开谁行谁不行,聊些不一样的吧 —— 将来怎么可以行:
1. 关于算力
无论是BEV感知还是 E2E,模型都非常吃算力,通常帧率和感知范围都不会放的太高、特别远,甚至限于算力,会降帧降分辨率使用,具体范围大家可以根据各家SR做参考。
降低帧率的损失,量化一下方便理解,车速120公里时,如果每秒15帧,3帧确认(防止鬼影和误检),基本就要损失 6~7 米的刹停距离。但换成36帧,就可以减少一半多。
关于分辨率,这是因为节约算力的另一种方式是把摄像头分区降分辨率,比如后向和侧后的都可以少一点,前向地平线往上的也可以降低,但一台 250米外,2米宽1米5高的车辆,即使在 800w 长焦摄像头里的像素点,也不是很多,加上是否需要减速,就要预测远处的车辆速度,这里就会需要上面的多帧确认逻辑,时间损失不可避免。
所以在 HW4 FSD 最新几次的更新里提到,会采用 500w 全分辨率和满帧率的图像,这也能某种角度解释视频里的表现。另一方面 E2E 也可以减少相关环节,更少的传感器可以减少时间对齐损失。
2. 关于激光雷达
很多人比较迷信单一传感器,在中低车速、低遮挡、暗光等情况下,确实可以对距离(速度)预测更为精准,但距离同样是限制,如果车距拉到250米,激光点的数量就非常有限了,帮助有限,换上横穿野猪,这个点的数量就会更小,更难以监测,这时候一个全分辨率的摄像头数据反而更可靠,或许后续的长距离新型号会有所改善。
不过在城市中,激光雷达的优势就开始体现出来了,无论是暗光还是极限切入,激光的测距准确性,就能带来更快的反应速度,不过它也会与摄像头共享一些限制,比如有静态遮挡的环岛汇入,反应速度并不能提高非常多。所以,更强大的模型理解场景,或者牺牲效率进行防御性减速,才能进一步平衡好效率和安全。
3. 关于模型架构
端到端和两段式,之前有提到过,上限上虽然彼此接近,但两段式还是会受限感知标注局限,有信息的丢失,在一些极限场景下,还是会发现 E2E 的更高一些。这些测试还不涉及太多需要额外理解的场景,比如被吹歪的红绿灯、站在路中假装交警指挥交通的保安……
大家往往喜欢用人类司机来对比,其实人的图像感知能力是很强的,研究里预估下来,人眼是接近一亿像素的立体视觉、以及非常广的光线范围(极暗和极强)、最少24帧的图像处理速度,对比现在的硬件,无论今天的传感器、算力,都还是有发展空间的。趋势也非常清晰,高帧率、全分辨率的技术架构,全光照的摄像头、更长距离的传感器,更强更强的算力,都是迈向下一步的必然。
发布于 中国香港
