@理想汽车 基座模型负责人詹锟刚讲的mindVLA-o1 具体的信息可以见🔽
http://t.cn/AXfGftOf
基于官方给出的回复信息🆕
1️⃣:mindVLA-o1 是一个原生对齐多模态【至少是视觉和文本模态】快慢一体的模型
2️⃣:mindVLA-o1 是原生行泊一体功能的模型
3️⃣:mindVLA-o1 是能在OrinX/Thor 上蒸馏跑通【注意,是蒸馏,优先会在大算力的M100】上跑
这里我额外写一点个人猜测:❓
1️⃣:因为mindVLA-o1 是原生对齐了多模态,现在VLA 8.3 级以前文本推理和视频推理【你画我猜】的现象将大幅度改善,甚至可以用文本推理Cot来约束空间推理,抑或反向。
这个在我国的复杂交通规则通行中非常重要,因此mindVLA-o1 可以同时感知视觉和文本信息,得益于M100 软硬件一体设计和芯片算力【其实是带宽】优异。让o1 可以跑的比较快;
直观感受推测,会有两个。仍然具备LLM模型的能力涌现,但是不合理的涌现现象将减少。针对复杂场景,卡死或者脱困可以触发长思考能力进行逐步推演。
2️⃣:因为mindVLA-o1 是一个行泊一体的模型。大概率o1 是11V all in ,即行车的7v和泊车的4v视觉信息一起进模型。
这个也是得益于M100 的优异带宽,而目前VLA 行车和泊车其实是两个VLA模型。
因为泊车场景更需要鱼眼近距离信息而行车需要看的更远。但是,模型衔接会出现一定卡顿或者体现不优的情况。
而11v 用一个模型去跑可以极大程度减少这个问题,甚至赋予AVP【🅿️】 远端感知的能力,懂的都懂【园区漫游读远端牌子文本信息是多么重要‼️】
反过来,行车场景下,🐟眼摄像头对于低矮障碍物的感知兜底,减少了蹭马路牙子爆胎的场景。等等..
3️⃣:此外因为mindVLA-o1,最后出的直接是控制细节。而且通过直接出多个轨迹点再进行平滑。相较于现在的直接扩散。 整个延迟会有明显的缩减。
换句话说现在8.3 VLA顿顿的感觉应该就没了。
如果觉得前面啰里八嗦
简单总结mindVLA-o1 会:
🌟看的更远更细,能脱困能看文本,反应也会快很多🌟
M100大概率将首发搭载,然后蒸馏到OrinX/Thor
预期拉完了,等詹锟卷啦[二哈],烧卡烧数据📊
额外补充一个@李想 想哥讲到重要事情:
3D ViT解决了这个问题。不再是从2D“还原”3D,而是让模型一开始就工作在真实的三维世界里。以高分辨率多视角视觉为核心,在编码阶段直接完成对3D空间几何和语义的统一理解——空间结构、位置关系、语义信息,一次完成。模型不只是看见画面,而是理解世界,既知道它在哪,也知道它是什么。
这个也是mindVLA-o1 非常非常重要的创新点,让模型真正理解 真实的世界 包含空间,结构和语义
@影总Tim @叫肖漫就好 @40在跑车 @大雁jassy @本诺__
#李想称机器人也用VLA# #理想发布下一代自动驾驶基础模型# #李想回应AI时代的焦虑##懒博小课堂#
