机器人领域规模法则研究进展

#模型时代# 机器人领域的“规模法则”（Scaling Laws）来了？

刚刷到X上有一个正在被讨论的技术博客，来自Generalist AI ，一个英伟达投了的橱窗公司。

简单来说，一个简短文献里有一坨重要东西：

1、GEN-0说它们首次在机器人领域也观察到了强大的规模法则。如果这一发现属实，它将把机器人智能的提升从“炼金术”般的试错，转变为“可计算的工程问题”。

研究在7B参数规模上观察到的“相变”或“智能门槛”。较小的模型在海量数据下会“僵化”，而7B以上的模型才能持续吸收知识。

2、GEN-0做出了一个高风险的战略押注：强调海量的真实物理互动数据是通往通用智能的正确路径。为此，他们构建了一个史无前例的、高达27万小时的真实操作数据集，并声称这远超现有其他数据集。

3、提出了适应物理世界的“谐波推理”架构。由于物理世界不等同于聊天，时间不会停止，物理定律不可违抗。GEN-0提出了“谐波推理”（Harmonic Reasoning），换掉了常见的系统一和系统二架构，提出了一种让AI“边想边做”的实时性方法。

具体是否靠谱，就评判不了，简单对技术博客做个归纳，如下：

***
GEN-0：赋予机器“格物致知”的物理常识
generalistai.com/blog/nov-04-2025-GEN-0

人工智能初创公司 Generalist AI 发布了其最新研究成果GEN-0。该公司成立于2024年，专注于具身智能与机器人基础模型，并获得了包括英伟达在内的知名机构投资。

他们发布的GEN-0是一个专为机器人打造的新型“具身基础模型”，目标是让机器人在真实的物理世界中行动。研究中最引人注目的发现是：当模型参数规模达到70亿时，机器智能展现出一种“相变”：更小的模型在海量数据冲击下会陷入“僵化”，而70亿及以上的模型则能持续吸收新知识。这一成果建立在一个庞大的数据集之上，包含了超过27万小时的真实世界物理操作数据。

背景：机器人的“莫拉维克悖论”
自人工智能诞生以来，一个有趣的现象始终困扰着研究者们：在抽象思维上（如下棋、数学），计算机能轻易超越人类；但在物理感知和运动协调上（如行走、抓握），即便是几岁的孩童也远胜于最先进的机器人。

这就是“莫拉维克悖论”。

多年来，研究者们试图通过视觉-语言预训练（即让AI看图识字）来帮助机器人理解世界。但这好比一个人虽然博览群书，却四体不勤。GEN-0要解决的，正是如何让AI在“运动”本身（即传感器与马达的互动）中建立规模化的学习定律，实现真正的“格物致知”。

技术挑战：物理不等同于聊天
一个聊天机器人（如LLM）在回答问题前，可以暂停几秒钟来“思考”。但在物理世界中，时间不会停止。当你伸手去接一个掉落的杯子时，你不能“暂停”重力，想好对策，然后再出手。

机器人面临同样的困境：它必须在毫秒之间，一边感知（Sensing）环境的连续变化，一边做出动作（Acting）。这种“边想边做”的能力，是传统AI架构难以实现的。

创新方案（一）：“谐波推理”的流动心智
为了解决上述挑战，GEN-0引入了一种名为“谐波推理”（Harmonic Reasoning）的核心特性。

这好比一位技艺精湛的钢琴家在演奏。他/她并不是弹完一个音符，停下来，看一下乐谱，再弹下一个音符。相反，他/她的眼睛（感知）总是在阅读即将到来的乐句（思考），而手指（行动）则在流畅地弹奏当前的音符。

“谐波推理”创造了类似的效果。它将感知和行动的指令视为两种异步的、连续的时间流，让模型能够在持续行动的同时，无缝地进行思考和规划。这种架构使得GEN-0在处理复杂任务时，无需依赖僵硬的“系统1-系统2”（即快思考与慢思考）切换，而是进入一种“心流”状态。

例如，在一个演示中，GEN-0需要完成“组装一个相机套件”的任务。它在没有被明确告知子任务的情况下，依靠“谐波推理”，流畅地完成了放清洁布、折叠纸板托盘、拿起相机并从塑料袋中取出、放入盒子、盖上盒子（并插入那个微小的翻盖），最后丢弃塑料袋等一系列复杂动作。

创新方案（二）：物理世界的“数据引擎”
莫拉维克悖论之所以难以克服，很大程度上是因为我们缺乏足够规模的物理互动数据。GEN-0的另一项核心贡献，就是建立了一个前所未有的数据收集与处理系统。

史无前例的规模：GEN-0的预训练数据集包含了超过27万小时的真实世界操作轨迹。作为对比，这比许多现存最大的机器人数据集高出数个量级。

持续增长：该数据集目前仍以每周1万小时的速度在增长。

数据多样性：数据来自全球数千个家庭、仓库、工厂中的硬件和机器人，涵盖了从剥土豆到拧螺栓的各种任务。

工程奇迹：为了支撑如此庞大的数据上传、处理和加载，团队构建了定制硬件、专用的互联网线路，并动用了上万个CPU核心进行数据处理。

实验验证：70亿参数的“智能门槛”
当拥有了庞大的数据后，一个惊人的发现出现了。

研究团队在预训练中观察到了一个“智能阈值”。在实验中，他们比较了不同参数大小的模型在处理数据时的表现：

10亿参数模型：在面对海量、复杂的传感器数据时，10亿模型很快表现出“僵化”（ossification）。它的学习能力迅速饱和，无法再吸收新信息。这好比一个容量有限的硬盘，数据塞满了就再也存不进去了。

60亿参数模型：表现有所改善，开始展现出多任务处理能力。

70亿参数模型：表现发生了质变。它能够稳定地吸收大规模的预训练数据，并且在后续的任务中，其预测错误率持续保持在极低的水平。

这一发现首次在机器人领域观察到模型“僵化”现象，并有力地印证了莫拉维克悖论：物理智能（如灵巧性）相比抽象推理，可能需要一个高得多的“计算激活门槛”。

意义与展望：从“炼金术”到“物理科学”
GEN-0的意义不仅在于“大”，更在于“可预测”。这项研究最重要的贡献，是试图在机器人领域建立清晰的“规模法则”（Scaling Laws）。

针对“衣物处理”任务，模型的性能与预训练数据规模之间呈现出一种稳定的幂律关系。这等于说，团队拥有了一张“地图”或一个“公式”。

如果这一发现能被广泛验证，它将把机器人智能的提升从“炼金术”般的试错，转变为“可计算的工程问题”，为整个行业提供了清晰的研发路径。

此外，70亿参数“智能门槛”的发现，以及对海量“真实世界数据”的战略押注，共同构成了这项研究的基石。它有力地印证了莫拉维克悖论：物理智能（如灵巧性）可能需要一个比抽象推理高得多的“计算激活门槛”。

当然，目前这些结论主要来自该团队的单方面发布。其真正的行业影响力，还将取决于后续严格的同行评议和更广泛的场景验证。但无论如何，GEN-0都为我们揭示了一条通往通用物理智能的、充满希望的规模化路径。

发布于德国