#通用机器人的三道曙光和三道墙#【对话它石智航陈亦伦:不做VLA,不仿真,#一家具身智能公司的非主流判断#】2024 年 11 月,《晚点 LatePost》曾独家报道,华为车 BU 前首席科学家陈亦伦投身具身智能创业。
不久后,它石智航浮出水面——由陈亦伦和百度前自动驾驶事业群负责人李震宇等联合创立;成立不足半年,它石先后完成 1.2 亿美元和 1.22 亿美元的天使轮与天使 + 轮融资,创下中国具身智能领域天使轮融资纪录,投资方包括蓝驰、美团、启明、线性、高瓴、联想创投等。
陈亦伦获得了很多支持,在技术思考上却 “离经叛道”。用一种平实的口吻,陈亦伦分享了很多反主流的判断。
Google RT-2 开启的 VLA(视觉-语言-动作)模型,是当前具身模型的主流架构。而它石则开发了 AWE(AI World Engine):
我们追求表达时间、空间、力和环境交互等物理量和 “世界信息”,而不是 VLA 那样的 “视网膜信息”。
VLA 的主流做法是从 LLM(大语言模型)得到 VLM(视觉-语言模型),再在 VLM 基础上训 VLA。陈亦伦却说:
我非常不认同(这个路线)。具身一定会有自己的独立模型,而不是在 VLM 上长出一个动作的 “头”。否则,它也不会是一个独立的行业,只是 LLM 的下游分支。
数据是具身智能当前的核心卡点。陈亦伦在创业之初也没有做当时 Optimus、PI 等美国公司选择的遥操作数据采集。他认为那样无法低成本、大规模获得足够的数据。它石自研了采集数据的可穿戴设备,让劳动者可以戴着手套和第一视角摄像头干活,力求获得真实场景里真实任务的数据。 http://t.cn/AXqOmK4G
发布于 北京
