今天《微博科技》官方栏目发了一期对话小米智能驾驶基座大模型负责人陈龙的节目,干货很多,值得一看。不过原节目比较长(1h24min),所以我用视频转文字的方法,把访谈的内容转成了带时间戳的文本,并用 Gemini 做了一个快速的总结。
如果你觉得 Gemini 分析的不够全面,希望自己阅读一遍全文,或者把全文收藏到自己的知识库里,也可以点击文末尾的链接查看访谈原文。希望这期内容对你有启发!
------
这期访谈真的非常精彩,简单概括,核心主旨就是“大一统”。过去自动驾驶和具身智能往往是两条平行的技术路线,各自为主。但小米现在试图用一套名叫“MIMO-Embodied”的具身大模型框架,把车和机器人拉到同一个“班级”里上课。
节目梳理了自动驾驶从传统的“三段式”架构,到纯神经网络驱动的“端到端”,再到如今引入大语言模型的VLA架构的演进历程。在这个过程中,陈龙团队甚至更进一步,提出了XLA多模态模型。这不仅突破了单一模态的限制,更打通了不同物理本体之间的壁垒,最终目标是实现物理世界的AGI。
在整场对话中,陈龙分享了许多极具洞察力的技术观点。首先是关于“潜空间推理”的引入,这是一个让人拍案叫绝的设计。
很多人以为现在的AI一思考,就必须像大语言模型那样,在内部生成一段长长的文字。但陈龙指出,在瞬息万变的驾驶场景中,完全依赖语言推理不仅延迟高,还会丢失大量视觉细节。他们使用了潜空间底层的机器语言进行多步推理,就像人类遇到窄路时,往往是靠直觉和空间想象,而不是在脑子里念出一段文字。
这样做的好处是信息量更大、反应更快,同时在需要解释的时候依然可以解码成人类能懂的语言。其次是“跨域训练带来的涌现能力”,也就是让机器人和车互相学习。两者看似无关,但实际上机器人的高频交互数据能赋予自动驾驶更强的空间感知与推理能力。
反过来,自动驾驶在室外海量的高速运动数据,又能教给机器人关于物理运动规律的深刻理解。当这两种数据在同一个Transformer架构下混合训练,配合思维链的拆解,不仅没有互相打架,反而产生了协同增强的效应。第三点是对“世界模型真正价值”的重新定义。
现在很多人把世界模型等同于生成逼真的视频,但陈龙看得很透彻。他认为世界模型的核心不是为了画出漂亮的下一帧,而是为了获得一种本质的表征,去精准预测物理世界的下一个关键状态。通过让AI不断预测事物未来的走向,它就能隐式地学会物理世界的运行规律。
最后一点,是指出“监督学习在物理AI领域的局限性”。陈龙提到,现有的监督学习只教给模型完美的驾驶轨迹,但真实环境总是充满了不可控的随机性。当汽车或机器人因为轮胎打滑等硬件差异犯错时,传统的开环训练模型根本不知道该如何把状态纠正回来。
因此,具身智能不需要一味追求完美干净的数据,反而需要包含错误的“脏数据”。未来的人工智能必须具备像人类一样持续学习、自我试错并纠正的能力,这可能需要借助强化学习甚至是新的在线学习范式。这也印证了人工智能领域的经典理念:与其让人类去定义规则,不如用大规模算力和数据让机器自己去探索。
物理世界的通用人工智能是一座极具诱惑力的高峰。我们不仅需要强大的多模态基座模型,还需要多种传感器的精准信息融合,更需要一套能让机器自我进化的学习机制。
访谈原文:http://t.cn/AXxIiSln
#小米##车是最先落地的具身智能##how i ai#
