博氪智能观 25-10-11 11:11

【解码智驾黑话:这些年被厂商画的智驾辅助的大饼,你吃的明白吗?】
昨夜@帆视界-EV 帆哥亦未寝,相与步于群里,聊到目前各大厂商在#智能驾驶辅助# 功能的技术路线时发现,其实很多车友面对当前各大厂商在智驾方面宣称的专业术语大多处于“虽晓其名,不知其意”的状态。
点赞、关注、评论并转发本条微博,10月20日抽送一个【小米手环9NFC版】给大家!@微博抽奖平台。 如有讲的不对的地方,欢迎技术大佬在评论区里交流指正[爱慕]
那我今天就试着给大家简单介绍一下比如“#端到端# ” “#VLA# ” “#VLM# ” “#世界模型# ”等都是些什么?
在L3的技术路线上,#华为[超话]##理想汽车[超话]##小鹏汽车[超话]##蔚来[超话]##极氪[超话]##momenta# 们都在争什么?

首先讲一下大家耳朵就磨出老茧的【端到端】

很多消费者甚至专业的汽车博主经常将“端到端”(E2E)和“车位到车位”(D2D)而混淆,比如我非常喜欢的小敖在最新一期#小鹏新P7# 的《难评》里就混淆了二者(可能啊,可能,因为是在后面的问答环节小敖提了一嘴没展开讲),认为“端到端”就是车子从车位A到车位B。其实这两个完全不是一个层级的概念。

E2E是指车端智驾芯片运行的模型,好比人脑里的知识,而D2D是用了这个知识后干出来的活,是一个场景功能。有了E2E不一定就能实现D2D。

所谓“端到端”是指从“感知端”→大模型→“执行端”,是这样的“端”到“端”。把 “看路况→想对策→踩刹车” 的拆分步骤合成一个模型,像直接连线的 “脑回路”。#特斯拉[超话]# 是代表玩家。在此之前,智能驾驶各家都是在通过程序员写各种规则代码来让系统执行这些程序,有了E2E模型,就不用程序员写满各种场景代码,靠模型自己从数据里学决策。

因此,我们现在常常听到的【#大语言模型# LLM】、【视觉语言模型#VLM# 】、【#多模态大模型# MLM】、【视觉语言动作模型#VLA# 】、【#世界模型# WAM】都是从【端到端】这个地基上盖起来的高楼。那这些乱七八糟模型到底都是干什么的?

这里首先要分为两个大类【语言类模型】和【物理类模型】。

语言类模型:靠 “语言思维” 理解世界 :

这里就包含了LLM、VLM、VLA、MLM,这里都有一个L(language)语言,也就是不论看到的、听到的、闻到的、尝到的、摸到的,系统都要“翻译”成【语言】给大模型去理解、执行。这四类模型本质是 “语言能力的不断升级”,核心都没离开语言中介:

LLM:纯语言地基,所有理解都基于文字(比如用 “前方有障碍物” 的描述做决策);
VLM:给语言加 “眼睛”,但必须把画面转成语言描述才能分析(比如把闯红灯行人的画面解读为 “有人横穿马路”);
VLA:语言 + 视觉 + 动作,但推理依赖 “内部语言思维链”(理想 VLA 会在脑中推演 “如果加速 5 秒后会撞人,所以要减速” 的逻辑);
MLM:虽然处理雷达、语音等多模态,但最终靠语言整合信息(华为 MLM 会把雷达数据转成 “距离 30 米有车” 的语言指令)。

用一句话总结它们的层级和包含关系:
LLM 是地基 → VLM 是 LLM + 视觉(第一次扩展) → VLA 是 VLM + 动作(第二次扩展,针对智驾等场景) → MLM 是包含前三者,还能处理更多模态的 “超级集合”
关键特征:哪怕输入是视觉、雷达等非语言信息,也必须先 “翻译” 成语言才能进行推理 —— 就像人看画时忍不住用文字描述画面,再判断含义。

而【世界模型】的核心是 “跳过翻译,直接建模”,重点在两个能力:
1、理解物理规则:比如知道 “物体落地会受重力”“车辆刹车有惯性”(Sora 生成视频能完美遵循物理定律);

2、预测未来状态:华为 ADS 4.0 的世界模型能直接预测 “行人 3 秒后会走到马路中间”,不用先描述 “有行人”。
一般来讲,各家厂商都在“云端”使用世界模型来训练各家的语言类模型,在“车端”部署语言类模型让用户使用,目前只有#蔚来nwm世界模型# 和华为的#乾崑智驾ADS4# 的WA世界模型在车端运行。

说到这里,也就引出当前各大厂商对于L3级自动驾驶路线的核心争议:VLA和世界模型谁才能实现L3?

目前明确走VLA路线的厂商有:小鹏、理想、极氪、#小米[超话]##元戎启行#
走世界模型的厂商有:蔚来与华为

两条路线的核心争议主要在于:

1、先快还是先准?
世界模型(华为):拼 “反应快”—— 高速前车变道,不用转语言,直接刹车,比 VLA 快 30%,说 VLA 多此一举。
VLA(理想 / 小鹏):求 “判断准”—— 城区遇施工,能转成 “要变道” 的逻辑,比世界模型更懂交通规则,怕后者 “凭直觉误判”。

2、 出事了好不好算账?
VLA:好追溯 —— 能说清 “因为看到潮汐车道牌,才靠左”,事故后易定责,监管更认。
世界模型:像 “黑盒”—— 凭物理规律判断(比如 “行人会闯红灯”),说不出为啥,监管担心定责难。

简单说:语言类模型是 “深思熟虑的文科生理财”,物理世界模型是 “反应敏捷的理科生打球”,现在厂商都在往 “文理兼备” 的方向卷。

3、技术成本贵不贵?
VLA:用现有芯片(如 Orin-X、Thor-U),但高阶功能要多芯片,成本难下 10 万。
世界模型:要高算力芯片,但华为优化后,L3 系统成本压到 8 万左右。

4、先跑高速还是城区全覆盖?
世界模型:先攻高速(华为计划2026 年商用)—— 路况稳,适合 “快反应”。
VLA:瞄准城区(理想计划2027 年落地)—— 能懂施工牌、手势,适合复杂场景。

话说回来,作为普通消费者,重点关注当下的驾驶辅助功能用的安不安心,钱花的值不值,厂商宣称的功能通过我这条微博大概清楚是怎么一回事,为技术买单时,做到心中有数就可以了。在我看来,优秀的产品往往不用用户去思考,优秀的厂商永远从用户角度出发,什么有用就用什么!
#新能源汽车[超话]##智能驾驶会让你更安心吗##智能辅助驾驶#
@阿福说车 @二一加点电 @大懒货 @影总Tim @地质中的润将军 @witness阿特 @张抗抗KK @小张同学-ZBX @李蓝蓝LL @OuroborosMOTO @Kimi姓Wang @海星aaaaaaa http://t.cn/AXz6JHP1

发布于 广东