刘先明到底说了什么?
今天@狮子头_又无助 发了一段刘先明讲课的内容,大概五分钟,强烈建议他换一个手机或者用一个好点的语音转化软件,那可怕的字幕给整个视频意思的难度递增了50%,贴着手机听筒听了十几遍,大概学习了一下其中的意思,来讲讲我的理解:
主题:这个视频大概讲了自动驾驶技术为什么会从规则走向端到端。
一句话版本:自动驾驶的难点不在于发现,而在于传统的规则算法无法在巨大的空间里决定未来几秒的走向,而端到端解决了这个问题。
详细解读版本:
1.先讲了传统的规划算法,过去自动驾驶规划往往是在自车前方规划一个空间,比如前方纵向80米,横向20米的一个空间,然后把空间切成很多格子,再然后就预测未来6秒内车要怎么走,这里要注意了!不是简单的规划一次就行了,因为你的路况在不断的变化,需要不停的去做规划,刘先明举例为12赫兹,也就是大约80毫秒规划一次,才能让轨迹更准确。
2.问题来了,这个搜索的空间太大了,要做的事儿太多了,传统的规划算法算不完,吃不下这么大一块任务。这个时候怎么办呢?我们就只能让他们聚焦“我们认为更关键”的东西,于是我们就来写一些条件:比如,哪些轨迹允许,哪些区域不允许,哪些动作优先,哪些动作禁止。这里的本质其实就是用人工规则把问题简化,求出一个相对准确的答案。
3.这里存在一个无解的问题,就是传统规则算法可以提供很好的确定性,但是对于复杂情况,比如城市NOA中,路口、加塞、非机动车、行人、施工、临时停车一多,这些规则组合就会多到爆炸,系统就无法满足更复杂情况的处理,简单说就是天花板不够高。
4.既然这条路已经走到了死胡同,工程师们找到了一条新路,就是用神经网络去替代过去的规则算法,让大模型从数据里学会哪种场景应该减速、哪种场景可以绕行、哪种车道选择更合理、哪种交互行为更接近人类驾驶员。为什么大模型有这样的能力?因为大模型并不是像规则算法那样,遇到情况的时候从第一种方法开始尝试,而是跳过大部分低概率计算路径,直接逼近高概率解法。举个例子,就像我从上海出发去广州,规则算法是把所有小路、国道、高速、村道都试一遍,再算哪条最好,大模型则是按照经验直接判断了应该走那条路最快。
5.这个时候你也许会问了,大模型怎么会有经验的呢?问的好,这就带来了数据量的问题,如果模型要承担更复杂的规划任务,就需要足够多的训练数据,也需要足够丰富的信息输入。所以,我们就需要更大的传感器输入,更多原始信息,更宽的输入空间,彻底实现从端到端把感知、预测、规划打通。
6.这个回答其实也解答了纯视觉的话题,也就是说纯视觉其实并不是因为摄像头便宜,而是因为模型要学复杂驾驶行为,就不能只喂它被人工处理过的窄信息。输入越窄,模型能力越容易被工程规则截断。这就是刘先明在视频中说的“中间不能有太多人为模块,否则整个链条会断掉”。
7.那么大模型的“涌现”是怎么回事?大家肯定都听说过,说数据量到了一定地步,会有涌现的事情,比如避让救护车,比如识别交警手势啥的,咋听起来,这就有点吹牛,但其实背后还是有可解释的道理。举个例子大家就更好理解,你在家里教娃念书的时候,他一开始只会背一些简单的词,比如苹果、爸爸、吃法、出去……,这些词看起来简单也没什么稀奇,即便是再多背几个也没什么亮眼的。但是如果你教会的词越来越多,你有一天会发现,孩子突然说了一句:“爸爸,我不想吃苹果,我想出去玩”。这就叫涌现。
8.所以,大模型也是类似逻辑。设计者没写:遇到这个复杂路口,请做出人类驾驶员一样的决策。但训练数据里有大量人类怎么过路口、怎么让行、怎么减速、怎么绕开的样本。规模足够后,模型就能把这些规律组合起来,变成一个“这个场景的风险中心在右前方,左侧车辆速度太快,当前最优策略是先轻刹、保持车道、等右前方电动车通过后再小幅向左绕行”。
所以,规则系统是人把经验写成代码;大模型是把经验压进参数。所谓涌现,就是这些参数里的经验开始自己组合,当然,涌现并不意味着一定OK,所以我们还需要数据闭环、仿真验证、安全边界……
那装车以后到底体验如何呢?可能明天的小鹏GX上市就更清楚了,今天应该大家也看到了小鹏GX的一些媒体评价了……这里我觉得值得再说一下的是六重冗余,实际上这是走向下一个等级辅助驾驶的必要条件……目前满足这个条件的车,同价格区间可能GX是唯一?
总而言之,请@狮子头_又无助 换个手机吧,我的推荐是Vivo X300,有个功能是定向收音。那么换下来的手机怎么办呢?当然是送到……(广告位招租)
#新能源汽车##小鹏第二代vla一套模型打通全场景##小鹏gx首发第二代vla园区无导航漫游# http://t.cn/AXieRvVg
发布于 江苏
