预测真实世界下一秒
北京智源研究院推出全新的多模态世界模型:Emu3.5
很多传统图像生成模型的主要问题是:
它们“不懂世界”运行的规律,无法理解真实世界的物理规则和因果关系。
Emu3.5在传统图像生成的基础上,进一步让AI具备:
理解真实世界的空间关系
推理物体随时间变化的规律
预测“世界下一秒”会是什么样
不同于以往为图像、文字、视频分开设计模型,Emu3.5 将它们全部“统一”在一个系统中:
首先把多模态信息包括图文视频都统一成了token;
模型通过“预测下一个 token”来学习不同模态间的关系;
任务统一为 NSP:预测下一个世界状态(包括视觉和语言)。
Emu3.5 不再只关注“文本之间的逻辑”,
而是让模型学习“世界是如何变化的”。
意思就是它不再区分:
这是一张图
这是一句话
这是视频的一帧
在它眼里,它们都是同一套“世界积木”。
然后模型只做一件事:
预测下一块积木是什么
如果下一块积木是一行字 → 它补全文字
如果是下一帧画面 → 它补全动作
如果是下一步结果 → 它推演世界变化
所以:
预测下一 Token = 预测“世界下一秒”会是什么样
Emu3.5的训练数据包含 约 790 年长的视频时长。
视频是现实最接近的数字化记录:同时携带时间、空间、物理与意图信息。
训练视频包含:
时间(Time)
空间(Space)
物理(Physics)
因果(Causality)
意图(Intent)
也就是世界的五个本质元素。
学习真实的世界经验
详细介绍和评测:http://t.cn/AXytePwW
模型官网:https://zh.emu.world/pages/web/landingPage
在线体验:https://zh.emu.world/pages/web/login
论文:http://t.cn/AXANAiHQ http://t.cn/AXyteLrC
发布于 安徽
