理想一次拿下12篇CVPR论文,12篇论文入选CVPR 2026,对于很多人来说,这可能只是一个数字。
但如果你长期关注智能驾驶、AI或者机器人行业,你会知道:CVPR基本就是计算机视觉领域最顶级的学术会议之一。而更重要的是,当把这12篇论文全部看完之后,我发现一个很有启发性的现象:
理想这次展示的已经不是某一个单点技术突破,而是一套完整的具身智能技术版图。这比论文数量本身更值得讨论。 自动驾驶,其实就是具身智能的上半场
我一直在讲:自动驾驶是具身智能的上半场。很多人理解的自动驾驶,是识别红绿灯、识别车辆、规划路线。但如果站在AI的角度看。自动驾驶本质上是在解决一个问题:一个智能体如何感知世界、理解世界、预测未来,并做出正确行动。
这其实和未来的人形机器人没有本质区别。
机器人需要:
✅看懂环境
✅理解任务
✅预测结果
✅执行动作
汽车也是一样。
所以当理想开始同时布局:
1️⃣ 多模态感知
2️⃣世界模型
3️⃣ 强化学习
4️⃣VLA
5️⃣Agent
6️⃣ 认知模型
它研究的已经不只是车。而是在研究一个智能体。这也是为什么这次发布会提出:“具身智能的边界在哪里?”
很多答案已经藏在这些论文里了。
⸻
第一层:让AI真正看懂世界,很多人以为感知已经卷完了。实际上远远没有。今天大部分智能驾驶系统能看到世界。但不一定真正理解世界。
比如:它知道前面有车。
但不一定知道:
❌哪辆车最危险
❌哪辆车可能变道
❌哪辆车会影响我的决策
理想的SGDrive就是在解决这个问题。它把驾驶理解拆成:场景 → 交通参与者 → 驾驶目标
这其实非常接近人类驾驶逻辑。我们开车的时候也是这样:先看整体路况。再关注关键车辆。最后决定自己怎么开,而不是看到所有东西都一视同仁。 这件事看起来简单。但本质上是在让AI从“识别物体”升级到“理解场景”。
⸻
第二层:让AI开始预测未来
如果说感知解决的是:“现在发生了什么?”那么世界模型解决的就是:“接下来会发生什么?”
这是过去两年整个AI行业最火的方向之一。因为真正的智能从来不是看见。而是预测。理想这次入选最多的领域就是世界模型。整整4篇论文。 其中我觉得最有意思的是:SparseWorld-TC
它做的事情可以简单理解成:让AI直接从摄像头画面预测未来几秒钟整个三维世界的变化。
谁会移动。谁会变道。哪里会出现风险!未来空间会如何变化。提前在脑海里推演出来。
人类开车时看到一个电动车靠近路口。虽然它还没动。但你已经会下意识减速。因为你预测它可能冲出来。这就是世界模型。而世界模型越强。辅助驾驶就越像一个有经验的老司机。 
⸻
第三层:让AI学会自己成长
过去很多智能驾驶系统有一个问题。规则越来越复杂。代码越来越多。最后整个系统越来越重。而强化学习提供了一条新的路径。让AI自己学习。自己进化。自己寻找最优解。
理想的PlannerRFT和AD-R1都在做这件事。 尤其是AD-R1很有意思。很多世界模型只见过安全数据。所以会天然乐观。危险场景见得太少。导致预测结果偏乐观。于是理想引入了反事实数据和危险轨迹训练。不仅让AI学习正确答案。还让AI学习错误答案会导致什么后果!这其实非常像人类成长。有时候我们真正学会开车。不是因为知道什么是正确。而是知道什么是危险。
⸻
第四层:让AI拥有“记忆”
这是我认为这次最有价值的一篇论文。CogDriver。
因为它解决的是一个行业里长期存在的问题:很多AI没有记忆。它们每一帧都在重新思考。就像一个失忆的人开车。前一秒发生什么!下一秒就忘了。结果就是:
❌决策反复横
❌ 动作不连贯
❌ 轨迹抖动
理想给它起了一个很形象的名字:认知惯性(Cognitive Inertia)。人不会因为看到一个新信息就立刻推翻过去所有判断。我们会保持一定连续性。这也是老司机为什么更稳。因为他们的决策有历史上下文。CogDriver本质上就是在给AI建立这种能力。 如果说世界模型是在预测未来。那么认知惯性就是在连接过去和未来。
⸻
第五层:从辅助驾驶走向Agent
如果你看LinkVLA、FastMMoE这些论文。理想已经开始把研究方向从:“如何开车”逐渐扩展到:“如何成为Agent”比如:语言理解。动作生成。跨模态推理。MoE大模型加速。视觉语言动作统一建模。这些东西表面看起来和开车关系不大。但如果放到具身智能框架里。逻辑就完全通了。因为未来无论是汽车还是机器人。本质都是Agent。
听懂指令/理解环境/ 制定计划/执行动作!这正是VLA和Agent正在解决的问题。 
⸻
真正值得关注的,不是12篇论文如果只看新闻标题。很多人可能会理解成:理想又发了12篇论文。真正值得关注的是:这些论文几乎覆盖了具身智能的完整链路。从感知。到理解。到预测。到规划。到强化学习!到世界模型。到认知模型。再到语言智能和Agent。
⚠️未来汽车行业的竞争,可能不会只是车企之间的竞争。而是智能体之间的竞争。谁拥有更强的世界模型。谁拥有更强的认知能力。谁拥有更强的Agent系统。谁就更有机会走向下一阶段。⚠️
对于理想来说。这12篇论文最大的意义,不是证明自己有多会写论文。而是在告诉外界:它正在用自动驾驶这条路,去寻找具身智能的答案。 
6月15日的软件与人工智能发布会,或许就是这套技术版图第一次完整对外展示的
#理想人工智能发布会定档6月15日##微博新知##大v聊车#
