26-07-02 22:20 微博认证:AI博主

跟业内做具身智能的朋友聊起来,大家现在最头疼的事情几乎都卡在一件事上——缺数据。

大语言模型之所以能发展这么快,一个非常重要的原因是互联网几十年积累了海量的文本数据,现成的直接拿来训练就行。

但具身智能这边,机器人要学的是物理操作,比如怎么端水,怎么拧瓶盖。
要让模型学会这些,你需要提供的是带精确空间坐标、力反馈信号、多传感器同步的操作记录。

但这种数据,互联网上并不好找。 具身模型需要的是毫米级定位、毫秒级同步的物理世界操作日志,每一条都只能从真实环境里采出来。

所以行业里有个说法,2026年是数采元年。 模型架构已经不是最大的瓶颈了,数据成了最卡脖子的那块短板。

今天刚好看到自变量机器人发布了QUANXTA Zero系列无本体数采方案,我花了点时间把相关信息过了一遍,发现这家公司切入的角度还蛮有意思的。

1
数据采集到底难在哪?

我之前觉得,找人操作机器人录一段不就行了吗? 后来才知道远没那么简单。

传统的主流方式叫遥操作。操作员通过遥控器操纵真实机器人完成任务,同时录制数据。
这意味着每条数据背后,都需要一台真机在跑。 一台像样的人形机器人少说几十万,场景布置、设备维护还要额外花钱。

效率也是个问题,遥操作本质上是用机器人的身体去模仿人的动作,操作起来非常别扭。
打个比方,有点像你要用一双两米长的筷子,通过一块小屏幕去夹桌上的弹珠。 你能做到,但做得很慢,而且经常失误。

但最致命的,是链路断裂。

采数据的团队和训模型的团队,在绝大多数情况下是两拨人。
采集方不知道模型到底需要什么格式、什么精度、什么分布的数据,模型方也没有能力控制采集过程。

结果就是,费了很大力气采回来的数据,真正能用的并不多,导致单条有效数据的成本高得吓人。

2
今天,自变量机器人发布了QUANXTA Zero系列数采方案,它的思路很值得学习一下。

核心理念是无本体采集。就是不用机器人,让人来采数据。

操作方式是这样的:根据不同需求,采集员可以选择不同的设备组合。
QUANXTA Zero-G0(VR头显+背包+双夹爪)适用于全场景沉浸式采集,QUANXTA Zero-G1(头环+双夹爪)更轻便灵活,QUANXTA Zero-E0(头环)则专注于视觉与轨迹数据的轻量采集。

采集员戴上设备后,像日常生活一样去完成各种任务。

端杯子、开抽屉、整理桌面,设备上的传感器和摄像头实时记录所有信息,采完之后数据可以直接迁移到不同构型的机器人上训练。

这个方案聪明在,它把传统数采最大的成本项给绕开了,你不需要买机器人了。

而且,它还把采集效率拉到了一个新的水平。

遥操作时人要先理解机器人的关节逻辑,再去适应那套别扭的操控方式,每一个动作都有认知转换的开销。

但无本体采集不需要这些,人直接做人最擅长的事,日常操作,设备在旁边默默记录就行。

自变量给的数据是最高采集速度93.2次/小时,相当于传统遥操作的2.33倍。

还有一个细节,它支持“移动采集数据本体回放”,据说是目前行业里唯一能做到的。
很多日常任务其实不是站在原地用手就能完成的,你得走过去拿个东西,转个身放到另一个地方。

如果只采手部数据,模型学到的任务策略就是残缺的。

而自变量的方案允许采集员一次性完成包含行走、转身、手臂操作在内的复合任务,不需要分步骤拆解,这对效率的提升非常直观。

4
但说到这,你可能会想,无本体采集这个方向,之前也有人做过,自变量有什么不一样?

市面上做数采的公司不少,但绝大多数是纯做数据服务的第三方。但自变量这家公司同时做模型、做本体、做数采,三件事全栈自研。

它是国内最早走完全端到端路径做通用具身大模型的公司之一,本体机器人量子一号和量子二号已经进入了数百个家庭和工业场景。

这是行业里第一次有本体厂商和模型厂商亲自从源头研发数采设备。这个身份差异带来的结果差异,数据上体现得很直接:整个系列产品采集数据,入库有效率超过85%。

在传统方案里,很多数据采回来能有四成可用就算不错了。

别小看这个差距。数据采集是要按条计费、按人计时的,有效率翻倍意味着真金白银的成本差异。

他们还研究出了一个无本体数据和真机数据的混合配比方案。通过这个配比,完成简单任务训练所需的数据总成本可以降低大约60%。

注意这不只是硬件便宜了,而是把硬件成本低、采集效率高、数据有效率高这几个因素叠在一起算出来的综合数字。

5
2026年被叫做数采元年,不是炒作。 具身智能的模型架构和本体硬件都在加速成熟,但数据基础设施远远没有跟上。

这个缺口不是靠某一家公司能填满的,它需要整个行业一起来建。

自变量选择在这个时候把自己的数采方案和数据管线开放出来,是在做一件基础设施的事情。
它把自己在模型训练端积累的行业知识,封装进了采集设备和数据平台里,让更多的数采商能够采到真正有用的数据。

至于这个市场最终会走向哪里,现在下结论还太早。

但在数据这个环节上,谁的效率更高、质量更好、成本更低,谁就能在下一阶段的竞争里占到先手。

发布于 上海