爱诗科技发布PixVerse R1

#Pixverse发布首个全球通用实时世界模型#
早上看到，爱诗科技正式发布PixVerse R1的消息，这个真是让我兴奋不已。
这应该是全球首个支持最高1080P分辨率通用实时世界模型，而且它和以前的视频模型不一样，它不是生成得快，而是把视频从一个个片段变成了一个完整的世界。

以前我们用的AI视频工具，是生成视频片段后再去剪辑拼接。
而R1这次不一样，它更像即兴演员，你可以直接在生成过程中用麦克风对AI模型说你的想法，例如我在一个测试中，将古代中国战场变为国外战场，没有加载条，变化是连续的、流淌的直接变化。
这就和一个第一视角的游戏一样，你可以根据你的想法去改变这个世界的内容。

技术原理上，爱诗科技声称这是一个“基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建的下一代实时世界模型。”
太学术了，听不懂是吧。
翻译成人话就是，他们做了件很疯狂的事，把生成过程从帧序列变成了状态流。
传统视频拍完就定型，R1的视频一直在生成中。你的每句话不是在修改AI生成的视频片段，而是在干预一个持续存在的视觉世界。
这让我想起《盗梦空间》的梦境建筑师，你的意图直接改变场景本身，而不是重新搭布景。

让我注意的是，这代表交互方式也变了。
不需要调参数、选风格，直接输入或者用麦克风对这AI视频说：“让那个女孩回头看我"，人物就真的会转头。
这种意图驱动的模式，让我有了AI和我共同创作的实感。
但说实话，目前画质还是不够高清，只是被实时交互的惊喜感盖过去了。

最让我觉得牛逼的是，R1定位不再是更酷的视频工具，而是未来的AI世界基础设施。
它就像个实时生成层，可以嵌在游戏里做动态剧情，可以放在社交App里生成虚拟空间，甚至能搞可交互广告。
很有可能你以后对着电脑上的衣服直接说：“帮我看下这件衣服在我身上的上身效果”，画面就实时演示。
我觉得想象空间很大，但未来可能还需要有很高的网速和视频清晰度支持。。

同样也再挑一个刺，R1的语音输入延迟在demo里看起来很低，实际网络环境复杂，我自己测试的时候，还是有延迟感应的，尤其是键盘输入的时候，感觉输入跟不上AI生成的速度。
而且它的"世界模型"目前还比较浅，不能展示复杂的物理规律和因果关系，画面质量也急需提高。

不过无论如何，PixVerse至少是第一个吃世界实时生成模型螃蟹的AI视频厂家。
将视频从片段变成完整的过程，这个方向我觉得对。
很可能在未来是成为游戏的一个形式。
就像当年从胶片到数字，从下载到直播，媒介形态变革往往比技术参数更重要。

先这样吧，我再深入玩玩，看看@拍我AI-PixVerse 这个世界模型还能给我带来什么样的惊喜。
#科技先锋官# #全球首个实时生成世界模型# #PixVerseR1# #拍我AI#

发布于福建