理想12篇论文入选CVPR

理想一次拿下12篇CVPR论文，12篇论文入选CVPR 2026，对于很多人来说，这可能只是一个数字。

但如果你长期关注智能驾驶、AI或者机器人行业，你会知道：CVPR基本就是计算机视觉领域最顶级的学术会议之一。而更重要的是，当把这12篇论文全部看完之后，我发现一个很有启发性的现象：

理想这次展示的已经不是某一个单点技术突破，而是一套完整的具身智能技术版图。这比论文数量本身更值得讨论。自动驾驶，其实就是具身智能的上半场

我一直在讲：自动驾驶是具身智能的上半场。很多人理解的自动驾驶，是识别红绿灯、识别车辆、规划路线。但如果站在AI的角度看。自动驾驶本质上是在解决一个问题：一个智能体如何感知世界、理解世界、预测未来，并做出正确行动。

这其实和未来的人形机器人没有本质区别。

机器人需要：

✅看懂环境
✅理解任务
✅预测结果
✅执行动作

汽车也是一样。

所以当理想开始同时布局：

1️⃣ 多模态感知
2️⃣世界模型
3️⃣ 强化学习
4️⃣VLA
5️⃣Agent
6️⃣ 认知模型

它研究的已经不只是车。而是在研究一个智能体。这也是为什么这次发布会提出：“具身智能的边界在哪里？”
很多答案已经藏在这些论文里了。

⸻

第一层：让AI真正看懂世界，很多人以为感知已经卷完了。实际上远远没有。今天大部分智能驾驶系统能看到世界。但不一定真正理解世界。

比如：它知道前面有车。
但不一定知道：

❌哪辆车最危险
❌哪辆车可能变道
❌哪辆车会影响我的决策

理想的SGDrive就是在解决这个问题。它把驾驶理解拆成：场景 → 交通参与者 → 驾驶目标

这其实非常接近人类驾驶逻辑。我们开车的时候也是这样：先看整体路况。再关注关键车辆。最后决定自己怎么开，而不是看到所有东西都一视同仁。这件事看起来简单。但本质上是在让AI从“识别物体”升级到“理解场景”。

⸻

第二层：让AI开始预测未来
如果说感知解决的是：“现在发生了什么？”那么世界模型解决的就是：“接下来会发生什么？”

这是过去两年整个AI行业最火的方向之一。因为真正的智能从来不是看见。而是预测。理想这次入选最多的领域就是世界模型。整整4篇论文。其中我觉得最有意思的是：SparseWorld-TC

它做的事情可以简单理解成：让AI直接从摄像头画面预测未来几秒钟整个三维世界的变化。

谁会移动。谁会变道。哪里会出现风险！未来空间会如何变化。提前在脑海里推演出来。

人类开车时看到一个电动车靠近路口。虽然它还没动。但你已经会下意识减速。因为你预测它可能冲出来。这就是世界模型。而世界模型越强。辅助驾驶就越像一个有经验的老司机。

⸻

第三层：让AI学会自己成长

过去很多智能驾驶系统有一个问题。规则越来越复杂。代码越来越多。最后整个系统越来越重。而强化学习提供了一条新的路径。让AI自己学习。自己进化。自己寻找最优解。

理想的PlannerRFT和AD-R1都在做这件事。尤其是AD-R1很有意思。很多世界模型只见过安全数据。所以会天然乐观。危险场景见得太少。导致预测结果偏乐观。于是理想引入了反事实数据和危险轨迹训练。不仅让AI学习正确答案。还让AI学习错误答案会导致什么后果！这其实非常像人类成长。有时候我们真正学会开车。不是因为知道什么是正确。而是知道什么是危险。

⸻

第四层：让AI拥有“记忆”

这是我认为这次最有价值的一篇论文。CogDriver。

因为它解决的是一个行业里长期存在的问题：很多AI没有记忆。它们每一帧都在重新思考。就像一个失忆的人开车。前一秒发生什么！下一秒就忘了。结果就是：

❌决策反复横
❌ 动作不连贯
❌ 轨迹抖动

理想给它起了一个很形象的名字：认知惯性（Cognitive Inertia）。人不会因为看到一个新信息就立刻推翻过去所有判断。我们会保持一定连续性。这也是老司机为什么更稳。因为他们的决策有历史上下文。CogDriver本质上就是在给AI建立这种能力。如果说世界模型是在预测未来。那么认知惯性就是在连接过去和未来。

⸻

第五层：从辅助驾驶走向Agent

如果你看LinkVLA、FastMMoE这些论文。理想已经开始把研究方向从：“如何开车”逐渐扩展到：“如何成为Agent”比如：语言理解。动作生成。跨模态推理。MoE大模型加速。视觉语言动作统一建模。这些东西表面看起来和开车关系不大。但如果放到具身智能框架里。逻辑就完全通了。因为未来无论是汽车还是机器人。本质都是Agent。

听懂指令/理解环境/ 制定计划/执行动作！这正是VLA和Agent正在解决的问题。

⸻

真正值得关注的，不是12篇论文如果只看新闻标题。很多人可能会理解成：理想又发了12篇论文。真正值得关注的是：这些论文几乎覆盖了具身智能的完整链路。从感知。到理解。到预测。到规划。到强化学习！到世界模型。到认知模型。再到语言智能和Agent。

⚠️未来汽车行业的竞争，可能不会只是车企之间的竞争。而是智能体之间的竞争。谁拥有更强的世界模型。谁拥有更强的认知能力。谁拥有更强的Agent系统。谁就更有机会走向下一阶段。⚠️

对于理想来说。这12篇论文最大的意义，不是证明自己有多会写论文。而是在告诉外界：它正在用自动驾驶这条路，去寻找具身智能的答案。

6月15日的软件与人工智能发布会，或许就是这套技术版图第一次完整对外展示的
#理想人工智能发布会定档6月15日##微博新知##大v聊车#

发布于北京