北京智源研究院推出Emu3.5

预测真实世界下一秒

北京智源研究院推出全新的多模态世界模型：Emu3.5

很多传统图像生成模型的主要问题是：

它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。

Emu3.5在传统图像生成的基础上，进一步让AI具备：

理解真实世界的空间关系
推理物体随时间变化的规律
预测“世界下一秒”会是什么样

不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：

首先把多模态信息包括图文视频都统一成了token；
模型通过“预测下一个 token”来学习不同模态间的关系；
任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。

Emu3.5 不再只关注“文本之间的逻辑”，
而是让模型学习“世界是如何变化的”。

意思就是它不再区分：

这是一张图
这是一句话
这是视频的一帧

在它眼里，它们都是同一套“世界积木”。

然后模型只做一件事：

预测下一块积木是什么

如果下一块积木是一行字 → 它补全文字
如果是下一帧画面 → 它补全动作
如果是下一步结果 → 它推演世界变化

所以：
预测下一 Token = 预测“世界下一秒”会是什么样

Emu3.5的训练数据包含约 790 年长的视频时长。

视频是现实最接近的数字化记录：同时携带时间、空间、物理与意图信息。

训练视频包含：

时间（Time）
空间（Space）
物理（Physics）
因果（Causality）
意图（Intent）

也就是世界的五个本质元素。
学习真实的世界经验

详细介绍和评测：http://t.cn/AXytePwW

模型官网：https://zh.emu.world/pages/web/landingPage

在线体验：https://zh.emu.world/pages/web/login

论文：http://t.cn/AXANAiHQ http://t.cn/AXyteLrC

发布于安徽