一段/两段式端到端和VLA大模型,到底怎么理解和区分这些架构?
今天借着#听不懂的汽车黑话#,给大家唠嗑一下:什么是一段式端到端?最近大家讨论较多的地平线HSD,我们用的就是一段式端到端
用比较行业的话说,一段式端到端就是用单一模型完成「感知输入👉输出决策控制」,优点是动作执行的低时延(100ms),接近人类司机的判断和执行速度
但可能很多人不理解:都是端到端,一段式和两段式有什么区别?这里我举个例子,我们学习英语或者其他外语,都要从基础的「主谓宾」句式开始。
「Horizon's slogan is Journey Together」学习这个句子的时候,我们得区分主语是Horizon's slogan, is是谓语,Journey Together是宾语,组合起来的语义理解就是「地平线的愿景是征程与共」
这种先拆解、再组合输出翻译内容,有点像两段式的端到端的工作模式。而一段式端到端,就像是双语环境下成长的小朋友,TA不需要提前了解句式,听到英文的瞬间,直接翻译成中文
从这个例子可以看出,一段式端到端的优点,是不强依赖Language的语言模型,所以英中文的转化效率高,反应快,也就是我们说的低时延。
而HSD在一段式端到端架构的基础上,实现了系统低延时、全方位防御性驾驶、横纵向合一的车控。
例如横纵向合一的车控,大模型输出的控车轨迹「更线性」,从体感上来说,就是绕行走线都很丝滑。目前体验过HSD的媒体老师,都称它是最接近FSD的控车体验,如果大家有兴趣,可以期待奇瑞ET5的量产车。
#一段式端到端##地平线HSD#
发布于 北京
