这两天 X 上有一个热度非常高的讨论是拥有 6550 万粉丝的知名 YouTuber Mark Robor(我相信很多人都看过他的视频)做了一期名叫「你能骗过一辆自动驾驶汽车吗?」的视频,我这会儿再看的时候已经有快 1300 万播放了。
视频里对比了特斯拉和一台配备了 Luminar 激光雷达的车在晴天儿童假人、鬼探头、模拟大雾/暴雨条件儿童假人、模拟大逆光和视觉欺骗假墙等 6 个场景下的表现。
这里争议最大的是最后一个视觉欺骗假墙,为什么呢,因为视频里的墙长图二这样,这是一个现实世界的道路环境里绝无可能遇到的场景。这是第一个雷。
第二个雷是,Mark Robor 的标题是 Can You Fool A Self-Driving Car? 但实际上他是开着 Autopilot 而非 FSD 做的测试,而对面搭载着 Luminar 激光雷达的那台车,副驾上还坐了一位 Luminar 的员工。
至此,舆论完全引爆。
一位前 Google 软件工程师用了一个单目深度估计模型 DepthAnythingV2 测试那个视觉欺骗假墙,发现即使是欺骗性如此强的图片,DepthAnythingV2 依然准确识别出来假墙。
随后有网友分别问了 Grok-3 和 ChatGPT-4o,这两个模型也准确分辨出来假墙是用来视觉欺骗的。
这些案例表明,随着视觉感知算法的持续提升,即使是非常模糊边际、非常融入环境的假墙,今天的视觉算法也能分辨出来。
随着事件的进一步发酵,特斯拉 FSD 资深工程师 Yun-Ta Tsai 也开始参与评论:测试中国 FSD 车主展示的现实世界里的真实场景要比 NASA 工程师展示的有趣的多——Mark Robor 之前就是 NASA 工程师。
国内正好(大胡小胡智驾狂魔)也在做一些 FSD 的测试。第一个是暗光环境下绕行废弃轮胎的视频,FSD 在时速 50、80 和 100 km/h 都准确识别绕行了废弃轮胎。
第二个是白天测试薄膜的透明墙,这个测试的变态程度和 Mark Robor 基本不相上下了。FSD 也都准确识别绕开了。
最后说一说我的看法:
只要你的测试场景还在现实世界的交通环境内,终有一天,纯视觉和包括激光雷达的多传感器融合感知,一定是无法分辨差别的。
我也从不相信中国的交通环境,无论是高速、施工还是城市里的动态障碍物有任何的特殊性,我认为完全没有区别。
纯视觉最终可以搞定驾驶汽车的一切感知,仅凭纯视觉就可以完全搞定。
