宝玉xp 23-09-16 01:58
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

转:"链式思维"自动驾驶——自动驾驶系统能够“大声思考”并用文字表述出来!

LINGO-1是我最近一段时间读到的关于自动驾驶领域最有趣的研究。

以前的模式是:感知 -> 驾驶行动
现在的模式是:感知 -> 文本推理 -> 行动

LINGO-1通过训练一个视频-语言模型来对正在进行的场景评论。你可以让它解释自己的决策和计划(例如:“你为什么停下来?”、“你接下来打算做什么?”)。

明确的推理步骤带来了几个关键的优势:

- 可解释性:驾驶模型不再是一个神秘的黑箱,你对其安全性一无所知。
- 反事实情景:它能够想象训练数据中没有的场景,并通过推理来正确处理这些场景。
- 长尾编程:驾驶中有太多的边缘场景。对所有场景进行良好的数据覆盖是不可能的。现在,你不再需要收集成千上万的数据案例来“神经编程”某一个案例,而是可以通过编写简短的文本提示(prompts),由人类专家解释和指导系统如何处理某些特定或复杂的情景。

LINGO-1与游戏AI领域的一些研究密切相关:
- MineDojo(我在NVIDIA的团队的工作,http://t.cn/A6OCtN8Z):学习一个奖励模型,将我的世界(Minecraft)的游戏视频与它们的文字记录对齐。这种模型,叫做“MineCLIP”,能够将评论文本与视频像素关联起来。
- 思维克隆(由Jeff Clune提出):在像素世界中实现像素 -> 语言 -> 行动的循环。

LINGO-1: Exploring Natural Language for Autonomous Driving
http://t.cn/A6OKB2jL

来源:twitter.com/DrJimFan/status/1702718067191824491 http://t.cn/A6OCtpSD

发布于 美国