宋锋林 26-02-07 11:27

我们能否用一种统一的方式,让机器同时学会看、听、说、写,乃至行动?——“Emu3”多模态大模型的重大进展

Emu3论文中最具科学价值的发现,则来自于它对规模定律Scaling Laws的系统研究。

此前的规模定律研究主要集中在纯语言模型上。Emu3的贡献在于,它证明了多模态学习同样遵循可预测的规模定律,而且——这是关键——不同模态共享同一套数据扩展指数。

具体而言,无论是文字到图像、图像到文字,还是文字到视频,当训练数据量翻倍时,模型的验证损失都以0.55的指数下降。这意味着多模态能力的提升不是各自为政的,而是遵循统一的数学规律。基于较小模型的实验数据,研究团队准确预测了70亿参数模型的性能,拟合优度超过0.99,误差不到3%。

这个发现的意义远超学术范畴。它暗示着,未来的多模态智能可能不需要为每种能力单独设计训练策略——只要把不同模态的数据混合在一起,用统一的目标训练,规模扩大后能力就会自然涌现。这极大地简化了研发路径,降低了技术门槛,也让通用人工智能AGI的愿景变得更加可信。

论文的另一个亮点,是Emu3在机器人操控任务上的出色表现。

在CALVIN基准测试——一个评估机器人执行长序列任务能力的标准测试——中,Emu3在“连续完成五个任务”的指标上达到了87%的成功率。这意味着机器人在接受语言指令后,能够依次完成一系列复杂操作,如“拿起桌上的杯子”、“打开抽屉”、“把杯子放进去”等,每一步都需要视觉感知、语言理解和动作规划的紧密配合。

这个结果揭示了Emu3框架的深层潜力:它不仅仅是一个内容生成工具,更可能是通往具身智能的一条捷径。传统的机器人学习需要专门设计感知模块、决策模块和控制模块,然后艰难地将它们整合在一起;而Emu3的思路是,把视觉观察、语言指令和机械臂动作都转换成符号序列,让模型在统一的框架下学习它们之间的关联。

扩散模型有一个内在限制:它本质上是一个生成器,而非理解器。要让Sora“理解”视频内容并回答问题,需要额外嫁接一个视觉语言模型——这又回到了模态割裂的老路。Emu3的自回归范式则天然统一了生成与理解:生成是预测视觉符号,理解是预测文字符号,它们在同一个模型里用同一种方式完成。

【Emu3的真正意义是什么?】
从技术角度看,它证明了“下一词预测”作为多模态学习统一范式的可行性。这不是一个增量式的改进,而是对主流技术路线的根本性挑战。
从产业角度看,它为中国AI研究树立了一个新的标杆。
一种可能的未来:也许智能的本质就是预测。预测下一个词,预测下一帧画面,预测下一个动作——当这些预测任务被统一到同一个框架中,涌现出的可能不仅仅是更强的模型,而是对“理解”和“创造”本身的新诠释。

http://t.cn/AX595shw

发布于 广东