互联网的那点事 25-12-03 18:20
微博认证:微博互联网观察家

预测真实世界下一秒

北京智源研究院推出全新的多模态世界模型:Emu3.5

很多传统图像生成模型的主要问题是:

它们“不懂世界”运行的规律,无法理解真实世界的物理规则和因果关系。

Emu3.5在传统图像生成的基础上,进一步让AI具备:

理解真实世界的空间关系
推理物体随时间变化的规律
预测“世界下一秒”会是什么样

不同于以往为图像、文字、视频分开设计模型,Emu3.5 将它们全部“统一”在一个系统中:

首先把多模态信息包括图文视频都统一成了token;
模型通过“预测下一个 token”来学习不同模态间的关系;
任务统一为 NSP:预测下一个世界状态(包括视觉和语言)。

Emu3.5 不再只关注“文本之间的逻辑”,
而是让模型学习“世界是如何变化的”。

意思就是它不再区分:

这是一张图
这是一句话
这是视频的一帧

在它眼里,它们都是同一套“世界积木”。

然后模型只做一件事:

预测下一块积木是什么

如果下一块积木是一行字 → 它补全文字
如果是下一帧画面 → 它补全动作
如果是下一步结果 → 它推演世界变化

所以:
预测下一 Token = 预测“世界下一秒”会是什么样

Emu3.5的训练数据包含 约 790 年长的视频时长。

视频是现实最接近的数字化记录:同时携带时间、空间、物理与意图信息。

训练视频包含:

时间(Time)
空间(Space)
物理(Physics)
因果(Causality)
意图(Intent)

也就是世界的五个本质元素。
学习真实的世界经验

详细介绍和评测:http://t.cn/AXytePwW

模型官网:https://zh.emu.world/pages/web/landingPage

在线体验:https://zh.emu.world/pages/web/login

论文:http://t.cn/AXANAiHQ http://t.cn/AXyteLrC

发布于 安徽