Pixverse发布实时视频世界模型

Pixverse 发布 R1 实时视频世界模型

藏师傅也试了一下

前几天测试的 Pixverse R1 终于发布了，这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。

极限情况下可以实时生成 1080P 的高清视频，感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。

------

简单介绍一下使用体验，目前他们在一个单独的平台测试需要邀请码。

你可以选择预制的的三个主题进行体验，三个主题分别是巨龙巢穴、二战主题、海底世界，正式版本会增加到 6 个。

也可以创建自己的主题，选择画面比例、风格输入主题相关提示词就可以了。

生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。

而且这里生成的视频居然还是带音乐、音效混合旁白的，比以前所谓的实时生成的模型强了不少。

------

算法和架构上主要的优化有：

这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流，接受任何模态的输入。

PixVerse-R1 改成了非扩散的自回归架构，用来实现无限连续的生成，还使用了增加注意力机制，确保长时间生成的内容一致性。

为了适配实时视频生成的性能，他们将原来的迭代降噪逻辑进行了多项优化，他们叫瞬时响应引擎 (IRE)，主要包括三个优化：

Temporal Trajectory Folding：传统模型从噪点到清晰图像需要迭代几十步，他们直接暴力压缩到仅需 1–4 步。

Guidance Rectification：直接将传统的 CFG 逻辑蒸馏到了模型参数内部，节省了时间。

Adaptive Sparse Attention：生成高分辨率的视频的时候让模型学会学会“抓大放小”，自动识别重要区域进行精细计算，大幅降低计算负载。

-------

目前由于成本问题需要邀请码才能测试，生成的分辨率是 480P，过几天会提高到 720P。
#全球首个实时生成世界模型##无限流AI真的来了#

发布于北京