天天越野跑
25-03-02 14:46

特斯拉的FSD智能辅助驾驶系统仅使用计算机视觉就能比配备激光雷达(LIDAR)和毫米波雷达(Radar)的系统表现更好,这个事情似乎与我们大部分人的直觉不太一样。让我来试着解释一下。

在自动驾驶的早期,人们认为如果能建立一个非常精确的周围交通环境模型,就能用算法来决定如何最好地控制车辆通过环境。

表面上看,激光雷达和毫米波雷达似乎能让你更精准地测量速度、距离等,从而提升驾驶表现。但实际上,随着深度学习的发展,计算机视觉在判断速度和距离方面已经变得非常准确——准确到额外传感器的附加好处几乎可以忽略不计。比如在变道时,迎面而来的车是100英尺远还是95英尺远并不重要,重要的是我有没有足够的时间变道。任何体验过最新特斯拉智能辅助驾驶系统的人都能感觉到这一点,计算机视觉早就足够精准来做出这些判断。

但深度学习还赋予了另一种超能力,这种能力对智能辅助驾驶系统至关重要。一个出色的感知系统能告诉你当前发生了什么,但智能辅助驾驶系统真正需要的是预测未来。不仅仅是那辆车有多远,而是它接下来会做什么?路口的行人会过马路,还是会站在那里等待?一些细微的线索,比如他们的面部表情、目光方向等,这些能预测行为的信号存在于视觉光谱中,而其他传感器模式无法捕捉。

因此,深度学习和预测未来,而不仅仅是感知当下,才是安全驾驶的关键。我们人类不会特意去想这些:周围车辆的速度、距离,因为我们看到眼前的情况就能立刻直觉地预测行人、自行车和汽车会做什么。

为了让深度学习发挥作用,你需要一个庞大且多样化的数据集以及大量的计算能力。事实证明,基于摄像头数据构建这样的数据集比使用雷达或激光雷达等传感器模式要容易得多。

因为摄像头成本低廉,你可以将它们安装到数百万辆车的大规模车队中,构建海量数据集。而其他传感器模式在成本和技术上的差异使得构建大规模数据集变得更加困难和昂贵,训练过程也变得更复杂。

尽管摄像头图像看似不如其他传感器,但它们与深度学习的结合效果更好。而深度学习正是开启尖端AI的关键。这就是为什么特斯拉智能辅助驾驶不适用激光雷达和毫米波雷达,纯视觉系统相对于更注重空间感知的激光雷达方案,能带来更平滑、更舒适、更像人类驾驶的体验。

你看到的每个开车的人类都只是在使用视觉的数据。他们没有激光雷达或者毫米波雷达来测量每辆车的精确速度,他们只是环顾四周,就知道是否安全执行某个操作。

我知道很难相信一个更简单、更便宜的传感器组合实际上表现更好,但这就是客观发生的事情。如果你不信,去试试最新的特斯拉智能辅助驾驶系统,亲自感受一下。如果有条件,和其他品牌对比一下。

在我看来,计算机视觉对自动辅助驾驶系统来说是必要且足够的。这种必要性,指的是没有计算机视觉你就无法实现智能辅助驾驶。如果你的计算机视觉系统失灵,但激光雷达和雷达还在工作,你还是无法读取交通信号灯、标志或车道线——你没法开车。所以它对智能辅助驾驶是必要的。

仅有计算机视觉也是足够的。不需要其他传感器方案,就足以让车辆比人类更安全地驾驶。我们知道它足够,因为所有人类都只用视觉开车。

但你可能会问,难道增加其他传感器模式不会让它更安全吗?

当然,在某些情况下,额外的传感器模式可能会有帮助。但你需要设计一个以视觉为核心的模型,确保在其他所有传感器失灵时,车辆仍然能安全驾驶。

假设一块大石头从悬崖上掉下来砸坏了你的激光雷达,车辆仍需安全开到维修中心。假设雷达意外断开连接,或者受到干扰,车辆仍然需要在这些额外传感器失灵时继续行驶。

所以无论如何,你需要一个足够强大的视觉系统作为核心,在其他一切失灵时仍能安全完成整个驾驶任务。一旦有了这个核心,你可以在高端车型上叠加其他传感器模式,如果有额外好处的话——但如果这些传感器失灵,视觉系统仍需足够强大,能独立驾驶车辆。

希望这解释清楚了为什么特斯拉坚定地使用纯视觉路线。

视频中为特斯拉投资几十亿美金正在运营的AI训练集群。特斯拉车上运行的端到端模型就是他们训练的。

#特斯拉[超话]# http://t.cn/A61mDsNe

发布于 日本