高飞 25-11-06 06:09
微博认证:至顶科技创始人 AI博主

#模型时代# 机器人领域的“规模法则”(Scaling Laws)来了?

刚刷到X上有一个正在被讨论的技术博客,来自Generalist AI ,一个英伟达投了的橱窗公司。

简单来说,一个简短文献里有一坨重要东西:

1、GEN-0说它们首次在机器人领域也观察到了强大的规模法则。如果这一发现属实,它将把机器人智能的提升从“炼金术”般的试错,转变为“可计算的工程问题”。

研究在7B参数规模上观察到的“相变”或“智能门槛”。较小的模型在海量数据下会“僵化”,而7B以上的模型才能持续吸收知识。

2、GEN-0做出了一个高风险的战略押注:强调海量的真实物理互动数据是通往通用智能的正确路径。为此,他们构建了一个史无前例的、高达27万小时的真实操作数据集,并声称这远超现有其他数据集。

3、提出了适应物理世界的“谐波推理”架构。由于物理世界不等同于聊天,时间不会停止,物理定律不可违抗。GEN-0提出了“谐波推理”(Harmonic Reasoning),换掉了常见的系统一和系统二架构,提出了一种让AI“边想边做”的实时性方法。

具体是否靠谱,就评判不了,简单对技术博客做个归纳,如下:

***
GEN-0:赋予机器“格物致知”的物理常识
generalistai.com/blog/nov-04-2025-GEN-0

人工智能初创公司 Generalist AI 发布了其最新研究成果GEN-0。该公司成立于2024年,专注于具身智能与机器人基础模型,并获得了包括英伟达在内的知名机构投资。

他们发布的GEN-0是一个专为机器人打造的新型“具身基础模型”,目标是让机器人在真实的物理世界中行动。研究中最引人注目的发现是:当模型参数规模达到70亿时,机器智能展现出一种“相变”:更小的模型在海量数据冲击下会陷入“僵化”,而70亿及以上的模型则能持续吸收新知识。这一成果建立在一个庞大的数据集之上,包含了超过27万小时的真实世界物理操作数据。

背景:机器人的“莫拉维克悖论”
自人工智能诞生以来,一个有趣的现象始终困扰着研究者们:在抽象思维上(如下棋、数学),计算机能轻易超越人类;但在物理感知和运动协调上(如行走、抓握),即便是几岁的孩童也远胜于最先进的机器人。

这就是“莫拉维克悖论”。

多年来,研究者们试图通过视觉-语言预训练(即让AI看图识字)来帮助机器人理解世界。但这好比一个人虽然博览群书,却四体不勤。GEN-0要解决的,正是如何让AI在“运动”本身(即传感器与马达的互动)中建立规模化的学习定律,实现真正的“格物致知”。

技术挑战:物理不等同于聊天
一个聊天机器人(如LLM)在回答问题前,可以暂停几秒钟来“思考”。但在物理世界中,时间不会停止。当你伸手去接一个掉落的杯子时,你不能“暂停”重力,想好对策,然后再出手。

机器人面临同样的困境:它必须在毫秒之间,一边感知(Sensing)环境的连续变化,一边做出动作(Acting)。这种“边想边做”的能力,是传统AI架构难以实现的。

创新方案(一):“谐波推理”的流动心智
为了解决上述挑战,GEN-0引入了一种名为“谐波推理”(Harmonic Reasoning)的核心特性。

这好比一位技艺精湛的钢琴家在演奏。他/她并不是弹完一个音符,停下来,看一下乐谱,再弹下一个音符。相反,他/她的眼睛(感知)总是在阅读即将到来的乐句(思考),而手指(行动)则在流畅地弹奏当前的音符。

“谐波推理”创造了类似的效果。它将感知和行动的指令视为两种异步的、连续的时间流,让模型能够在持续行动的同时,无缝地进行思考和规划。这种架构使得GEN-0在处理复杂任务时,无需依赖僵硬的“系统1-系统2”(即快思考与慢思考)切换,而是进入一种“心流”状态。

例如,在一个演示中,GEN-0需要完成“组装一个相机套件”的任务。它在没有被明确告知子任务的情况下,依靠“谐波推理”,流畅地完成了放清洁布、折叠纸板托盘、拿起相机并从塑料袋中取出、放入盒子、盖上盒子(并插入那个微小的翻盖),最后丢弃塑料袋等一系列复杂动作。

创新方案(二):物理世界的“数据引擎”
莫拉维克悖论之所以难以克服,很大程度上是因为我们缺乏足够规模的物理互动数据。GEN-0的另一项核心贡献,就是建立了一个前所未有的数据收集与处理系统。

史无前例的规模:GEN-0的预训练数据集包含了超过27万小时的真实世界操作轨迹。作为对比,这比许多现存最大的机器人数据集高出数个量级。

持续增长:该数据集目前仍以每周1万小时的速度在增长。

数据多样性:数据来自全球数千个家庭、仓库、工厂中的硬件和机器人,涵盖了从剥土豆到拧螺栓的各种任务。

工程奇迹:为了支撑如此庞大的数据上传、处理和加载,团队构建了定制硬件、专用的互联网线路,并动用了上万个CPU核心进行数据处理。

实验验证:70亿参数的“智能门槛”
当拥有了庞大的数据后,一个惊人的发现出现了。

研究团队在预训练中观察到了一个“智能阈值”。在实验中,他们比较了不同参数大小的模型在处理数据时的表现:

10亿参数模型:在面对海量、复杂的传感器数据时,10亿模型很快表现出“僵化”(ossification)。它的学习能力迅速饱和,无法再吸收新信息。这好比一个容量有限的硬盘,数据塞满了就再也存不进去了。

60亿参数模型:表现有所改善,开始展现出多任务处理能力。

70亿参数模型:表现发生了质变。它能够稳定地吸收大规模的预训练数据,并且在后续的任务中,其预测错误率持续保持在极低的水平。

这一发现首次在机器人领域观察到模型“僵化”现象,并有力地印证了莫拉维克悖论:物理智能(如灵巧性)相比抽象推理,可能需要一个高得多的“计算激活门槛”。

意义与展望:从“炼金术”到“物理科学”
GEN-0的意义不仅在于“大”,更在于“可预测”。这项研究最重要的贡献,是试图在机器人领域建立清晰的“规模法则”(Scaling Laws)。

针对“衣物处理”任务,模型的性能与预训练数据规模之间呈现出一种稳定的幂律关系。这等于说,团队拥有了一张“地图”或一个“公式”。

如果这一发现能被广泛验证,它将把机器人智能的提升从“炼金术”般的试错,转变为“可计算的工程问题”,为整个行业提供了清晰的研发路径。

此外,70亿参数“智能门槛”的发现,以及对海量“真实世界数据”的战略押注,共同构成了这项研究的基石。它有力地印证了莫拉维克悖论:物理智能(如灵巧性)可能需要一个比抽象推理高得多的“计算激活门槛”。

当然,目前这些结论主要来自该团队的单方面发布。其真正的行业影响力,还将取决于后续严格的同行评议和更广泛的场景验证。但无论如何,GEN-0都为我们揭示了一条通往通用物理智能的、充满希望的规模化路径。

发布于 德国