自动驾驶技术转向端到端模型

刘先明到底说了什么？

今天@狮子头_又无助发了一段刘先明讲课的内容，大概五分钟，强烈建议他换一个手机或者用一个好点的语音转化软件，那可怕的字幕给整个视频意思的难度递增了50%，贴着手机听筒听了十几遍，大概学习了一下其中的意思，来讲讲我的理解：

主题：这个视频大概讲了自动驾驶技术为什么会从规则走向端到端。

一句话版本：自动驾驶的难点不在于发现，而在于传统的规则算法无法在巨大的空间里决定未来几秒的走向，而端到端解决了这个问题。

详细解读版本：

1.先讲了传统的规划算法，过去自动驾驶规划往往是在自车前方规划一个空间，比如前方纵向80米，横向20米的一个空间，然后把空间切成很多格子，再然后就预测未来6秒内车要怎么走，这里要注意了！不是简单的规划一次就行了，因为你的路况在不断的变化，需要不停的去做规划，刘先明举例为12赫兹，也就是大约80毫秒规划一次，才能让轨迹更准确。

2.问题来了，这个搜索的空间太大了，要做的事儿太多了，传统的规划算法算不完，吃不下这么大一块任务。这个时候怎么办呢？我们就只能让他们聚焦“我们认为更关键”的东西，于是我们就来写一些条件：比如，哪些轨迹允许，哪些区域不允许，哪些动作优先，哪些动作禁止。这里的本质其实就是用人工规则把问题简化，求出一个相对准确的答案。

3.这里存在一个无解的问题，就是传统规则算法可以提供很好的确定性，但是对于复杂情况，比如城市NOA中，路口、加塞、非机动车、行人、施工、临时停车一多，这些规则组合就会多到爆炸，系统就无法满足更复杂情况的处理，简单说就是天花板不够高。

4.既然这条路已经走到了死胡同，工程师们找到了一条新路，就是用神经网络去替代过去的规则算法，让大模型从数据里学会哪种场景应该减速、哪种场景可以绕行、哪种车道选择更合理、哪种交互行为更接近人类驾驶员。为什么大模型有这样的能力？因为大模型并不是像规则算法那样，遇到情况的时候从第一种方法开始尝试，而是跳过大部分低概率计算路径，直接逼近高概率解法。举个例子，就像我从上海出发去广州，规则算法是把所有小路、国道、高速、村道都试一遍，再算哪条最好，大模型则是按照经验直接判断了应该走那条路最快。

5.这个时候你也许会问了，大模型怎么会有经验的呢？问的好，这就带来了数据量的问题，如果模型要承担更复杂的规划任务，就需要足够多的训练数据，也需要足够丰富的信息输入。所以，我们就需要更大的传感器输入，更多原始信息，更宽的输入空间，彻底实现从端到端把感知、预测、规划打通。

6.这个回答其实也解答了纯视觉的话题，也就是说纯视觉其实并不是因为摄像头便宜，而是因为模型要学复杂驾驶行为，就不能只喂它被人工处理过的窄信息。输入越窄，模型能力越容易被工程规则截断。这就是刘先明在视频中说的“中间不能有太多人为模块，否则整个链条会断掉”。

7.那么大模型的“涌现”是怎么回事？大家肯定都听说过，说数据量到了一定地步，会有涌现的事情，比如避让救护车，比如识别交警手势啥的，咋听起来，这就有点吹牛，但其实背后还是有可解释的道理。举个例子大家就更好理解，你在家里教娃念书的时候，他一开始只会背一些简单的词，比如苹果、爸爸、吃法、出去……，这些词看起来简单也没什么稀奇，即便是再多背几个也没什么亮眼的。但是如果你教会的词越来越多，你有一天会发现，孩子突然说了一句：“爸爸，我不想吃苹果，我想出去玩”。这就叫涌现。

8.所以，大模型也是类似逻辑。设计者没写：遇到这个复杂路口，请做出人类驾驶员一样的决策。但训练数据里有大量人类怎么过路口、怎么让行、怎么减速、怎么绕开的样本。规模足够后，模型就能把这些规律组合起来，变成一个“这个场景的风险中心在右前方，左侧车辆速度太快，当前最优策略是先轻刹、保持车道、等右前方电动车通过后再小幅向左绕行”。

所以，规则系统是人把经验写成代码；大模型是把经验压进参数。所谓涌现，就是这些参数里的经验开始自己组合，当然，涌现并不意味着一定OK，所以我们还需要数据闭环、仿真验证、安全边界……

那装车以后到底体验如何呢？可能明天的小鹏GX上市就更清楚了，今天应该大家也看到了小鹏GX的一些媒体评价了……这里我觉得值得再说一下的是六重冗余，实际上这是走向下一个等级辅助驾驶的必要条件……目前满足这个条件的车，同价格区间可能GX是唯一？

总而言之，请@狮子头_又无助换个手机吧，我的推荐是Vivo X300，有个功能是定向收音。那么换下来的手机怎么办呢？当然是送到……（广告位招租）
#新能源汽车##小鹏第二代vla一套模型打通全场景##小鹏gx首发第二代vla园区无导航漫游# http://t.cn/AXieRvVg

发布于江苏