i陆三金 24-07-12 00:33
微博认证:AI博主

谷歌新研究:Gemini 1.5 Pro 的长上下文窗口如何帮助机器人导航世界 ?

谷歌研究员在实验中带着机器人在现实世界的特定区域进行了一次参观,重点介绍了需要记忆的关键地点,比如“刘易斯的办公桌”或“临时办公区域”。然后,机器人被要求带领研究人员去这些地点。

大致的原理是:「系统的架构接收参观时的视频和用户指令输入,然后创建一个拓扑图 - 或者空间的简化表示。

拓扑图是从参观视频中的帧构建的,捕捉了周围环境的一般连通性,以便在没有地图的情况下找到路径。」

谷歌表示,在未来,用户只需用智能手机录下他们所处环境的游览路线,他们的个人机器人助手就能理解并为其导航。

相关论文:http://t.cn/A6QrDAtY

发布于 北京