2025年9月25日,谷歌DeepMind推出了Gemini Robotics 1.5系列机器人模型。该系列模型包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型,旨在提升机器人的自主性,使其能更好地解决复杂的多步骤任务。相关介绍如下:
- Gemini Robotics 1.5是谷歌目前最强大的视觉-语言-动作(VLA)模型,能将视觉信息和文本指令转化为机器人的控制命令,充当机器人的“小脑”。它具备“思考后行动”的能力,可将复杂任务拆解为细致步骤,还能在不同机器人本体上进行学习,通过动作迁移机制实现零样本迁移,提高学习效率。
它也是谷歌迄今为止最强大的视觉-语言模型(VLM),可对物理世界进行推理,相当于机器人的“大脑”。它能原生调用数字工具,创建详细的多步骤计划来完成任务,在空间理解基准测试中性能先进。此外,该模型还擅长在物理环境中规划操作序列和逻辑判断,能以自然语言与人类交互,评估任务是否成功及进度。
目前,开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。 #互联网科技# http://t.cn/AX7cgC2d
发布于 福建
