【昆仑万维发布Matrix-Game 3.5核心技术突破🎮】
在6月12日-13日举行的第8届智源大会上,昆仑万维旗下Skywork首席科学家刘扬系统阐述了#MatrixGame#的研发历程、最新进展,并首次公布Matrix-Game 3.5核心技术突破。该版本计划于2026年7月正式发布,团队也将在近期发布包含更多技术细节的报告。
🤖 重新定义#世界模型# :“状态-动作联合生成”
刘扬提出全新框架:世界模型应对状态与动作进行联合理解与联合生成,而非单向观测世界、预测下一帧。根据应用场景,模型可侧重输出状态(用于交互模拟器)或侧重输出动作(用于机器人控制)。
📈 Matrix-Game多次关键跨越
1.0(2025年3月):最早公开的可交互世界模型之一
2.0(2025年8月):业界首个实现分钟级实时长序列交互的世界模型,单卡B100、720P@25FPS,首个开源方案
3.0(2026年3月):5B参数蒸馏模型实现720P@40FPS实时生成,补齐记忆、长时程、实时性三大短板
3.5(2026年7月):从游戏场景向真实场景全面扩展是该版本最大变化,支持多风格动态切换、NPC交互,升级长时记忆能力
🔧 实践中的关键挑战与技术突破
1️⃣ 动作信号与视觉画面缺乏一一对应:大量主动构建数据场景,明确告诉模型这种情况下的物理规则
2️⃣ 模型理解动作指令,却不理解动作的物理后果:团队建立了一套主动数据标注体系,大量手工构建边界场景,将这些物理知识注入训练数据
3️⃣ 注入控制参数会破坏原始视频分布:3.5版本不再引入额外参数,转而采用PRoPE(Projective Position Encoding)机制,通过相机投影矩阵让模型直接感知相机相对位姿
4️⃣ 记忆检索方式决定长时程一致性的上限:3.5版本进行了架构层面的升级,将历史帧切分为三维坐标系下的空间块(spatial tokens),检索时按空间位置匹配,再重组成当前视角的记忆图。
下一步,团队目标构建原生统一的世界模型框架,推动世界模型从游戏迈向机器人控制与物理世界交互。
来源:昆仑万维集团
