2025年,具身智能可真是太火了。而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。
作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。
从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。
在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已开始发力押注VLA的未来。
几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成任务。
与此同时,中国在这一赛道上的表现也毫不逊色。
近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。
这款模型最大的亮点,是将双系统模块中的「快系统」嵌入「慢系统」,打破了机器人「操控效率」与「推理能力」不可兼得的困局。http://t.cn/A6k7w6Xo
