#Pixverse发布首个全球通用实时世界模型#
早上看到,爱诗科技正式发布PixVerse R1的消息,这个真是让我兴奋不已。
这应该是全球首个支持最高1080P分辨率通用实时世界模型,而且它和以前的视频模型不一样,它不是生成得快,而是把视频从一个个片段变成了一个完整的世界。
以前我们用的AI视频工具,是生成视频片段后再去剪辑拼接。
而R1这次不一样,它更像即兴演员,你可以直接在生成过程中用麦克风对AI模型说你的想法,例如我在一个测试中,将古代中国战场变为国外战场,没有加载条,变化是连续的、流淌的直接变化。
这就和一个第一视角的游戏一样,你可以根据你的想法去改变这个世界的内容。
技术原理上,爱诗科技声称这是一个“基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建的下一代实时世界模型。”
太学术了,听不懂是吧。
翻译成人话就是,他们做了件很疯狂的事,把生成过程从帧序列变成了状态流。
传统视频拍完就定型,R1的视频一直在生成中。你的每句话不是在修改AI生成的视频片段,而是在干预一个持续存在的视觉世界。
这让我想起《盗梦空间》的梦境建筑师,你的意图直接改变场景本身,而不是重新搭布景。
让我注意的是,这代表交互方式也变了。
不需要调参数、选风格,直接输入或者用麦克风对这AI视频说:“让那个女孩回头看我",人物就真的会转头。
这种意图驱动的模式,让我有了AI和我共同创作的实感。
但说实话,目前画质还是不够高清,只是被实时交互的惊喜感盖过去了。
最让我觉得牛逼的是,R1定位不再是更酷的视频工具,而是未来的AI世界基础设施。
它就像个实时生成层,可以嵌在游戏里做动态剧情,可以放在社交App里生成虚拟空间,甚至能搞可交互广告。
很有可能你以后对着电脑上的衣服直接说:“帮我看下这件衣服在我身上的上身效果”,画面就实时演示。
我觉得想象空间很大,但未来可能还需要有很高的网速和视频清晰度支持。。
同样也再挑一个刺,R1的语音输入延迟在demo里看起来很低,实际网络环境复杂,我自己测试的时候,还是有延迟感应的,尤其是键盘输入的时候,感觉输入跟不上AI生成的速度。
而且它的"世界模型"目前还比较浅,不能展示复杂的物理规律和因果关系,画面质量也急需提高。
不过无论如何,PixVerse至少是第一个吃世界实时生成模型螃蟹的AI视频厂家。
将视频从片段变成完整的过程,这个方向我觉得对。
很可能在未来是成为游戏的一个形式。
就像当年从胶片到数字,从下载到直播,媒介形态变革往往比技术参数更重要。
先这样吧,我再深入玩玩,看看@拍我AI-PixVerse 这个世界模型还能给我带来什么样的惊喜。
#科技先锋官# #全球首个实时生成世界模型# #PixVerseR1# #拍我AI#
