mindVLA-o1模型解析

@理想汽车基座模型负责人詹锟刚讲的mindVLA-o1 具体的信息可以见🔽
http://t.cn/AXfGftOf

基于官方给出的回复信息🆕
1️⃣：mindVLA-o1 是一个原生对齐多模态【至少是视觉和文本模态】快慢一体的模型

2️⃣：mindVLA-o1 是原生行泊一体功能的模型

3️⃣：mindVLA-o1 是能在OrinX/Thor 上蒸馏跑通【注意，是蒸馏，优先会在大算力的M100】上跑

这里我额外写一点个人猜测：❓

1️⃣：因为mindVLA-o1 是原生对齐了多模态，现在VLA 8.3 级以前文本推理和视频推理【你画我猜】的现象将大幅度改善，甚至可以用文本推理Cot来约束空间推理，抑或反向。
这个在我国的复杂交通规则通行中非常重要，因此mindVLA-o1 可以同时感知视觉和文本信息，得益于M100 软硬件一体设计和芯片算力【其实是带宽】优异。让o1 可以跑的比较快；
直观感受推测，会有两个。仍然具备LLM模型的能力涌现，但是不合理的涌现现象将减少。针对复杂场景，卡死或者脱困可以触发长思考能力进行逐步推演。

2️⃣：因为mindVLA-o1 是一个行泊一体的模型。大概率o1 是11V all in ，即行车的7v和泊车的4v视觉信息一起进模型。
这个也是得益于M100 的优异带宽，而目前VLA 行车和泊车其实是两个VLA模型。
因为泊车场景更需要鱼眼近距离信息而行车需要看的更远。但是，模型衔接会出现一定卡顿或者体现不优的情况。
而11v 用一个模型去跑可以极大程度减少这个问题，甚至赋予AVP【🅿️】远端感知的能力，懂的都懂【园区漫游读远端牌子文本信息是多么重要‼️】
反过来，行车场景下，🐟眼摄像头对于低矮障碍物的感知兜底，减少了蹭马路牙子爆胎的场景。等等..

3️⃣：此外因为mindVLA-o1，最后出的直接是控制细节。而且通过直接出多个轨迹点再进行平滑。相较于现在的直接扩散。整个延迟会有明显的缩减。
换句话说现在8.3 VLA顿顿的感觉应该就没了。

如果觉得前面啰里八嗦
简单总结mindVLA-o1 会：

🌟看的更远更细，能脱困能看文本，反应也会快很多🌟

M100大概率将首发搭载，然后蒸馏到OrinX/Thor

预期拉完了，等詹锟卷啦[二哈]，烧卡烧数据📊

额外补充一个@李想想哥讲到重要事情：

3D ViT解决了这个问题。不再是从2D“还原”3D，而是让模型一开始就工作在真实的三维世界里。以高分辨率多视角视觉为核心，在编码阶段直接完成对3D空间几何和语义的统一理解——空间结构、位置关系、语义信息，一次完成。模型不只是看见画面，而是理解世界，既知道它在哪，也知道它是什么。

这个也是mindVLA-o1 非常非常重要的创新点，让模型真正理解真实的世界包含空间，结构和语义

@影总Tim @叫肖漫就好 @40在跑车 @大雁jassy @本诺__

#李想称机器人也用VLA# #理想发布下一代自动驾驶基础模型# #李想回应AI时代的焦虑##懒博小课堂#

发布于浙江