最近跟一个做短剧的朋友吃饭,聊到了现在AI短剧的大趋势。
他说他们公司今年压力也很大,不仅仅是来自同行,更多的是来自AI。
现在各大短视频平台都在密集推AI短剧,包括前两天也看到什么男二以下的演员不需要真人了,直接AI做,还有直接基于真人建模的AI演员官宣。
现在纯AI生成的短剧,虽然观看率只有34.5%,大概是AI辅助真人短剧的一半,但用户对它的未来观看兴趣高达68.3%。
也就是说,现在看的人虽然还不多,但大家都觉得以后会看。
基于这个判断,已经有很多人开始把注意力转向纯AI生成短剧了。
1
我朋友说,他们公司今年也开始用AI工具做素材,确实省下了不少成本。
但有一个问题一直没解决,就是每次剪完发给甲方,对方看两眼就说,这个不行,太AI了。
他说他也知道像,但明明分辨率是够的,光线也对,演员长得也好看,但你看一眼,还是感觉一眼AI。
我思考了一下原因,大概是因为人眼是非常古老的器官,进化了几十万年,专门用来辨认真实世界里的信息。
皮肤的纹理、肌肉运动时的细小形变、一个人在说话时眼角的细微抽动。
这些东西虽然你平时不会注意,但大脑一直在扫描。
一旦有任何一个细节不对,大脑不会告诉你哪里不对,它只会发一个信号:假的。
但最近,我注意到Pixverse发布了V6,重点升级了审美与镜头质感,真正具备电影级表现力,但我还是想看下它关于AI生成视频的「假人感」问题有没有被解决。
当然,现在市面上也有很多AI视频工具会依赖图生视频来提升准确率,但下面都是用Pixverse V6纯文生视频的效果,参考价值会更高一点~
1
先说人像。
早期AI视频工具处理人脸,皮肤会过度光滑,像蒙了一层磨皮滤镜,毛孔和细纹全消失了。
眼神是空的,就像玻璃眼,没有焦距,没有情绪,微表情更是几乎不存在,人在表达情绪的时候,嘴角、眉头、眼周的肌肉是一直在细微运动的,AI生成往往只有大动作,细节是一片死寂。
这几个问题叠在一起,就变成了AI视频的「假人感」。
但拍我V6的人像近景效果如何呢?
第一个是一双老人的手。
镜头跟随着一双布满岁月痕迹的手,从格子布篮里拾起红褐色的果实,拇指和食指捏合、旋转,剥开外皮。粗糙的掌纹、微颤的指节,在阳光下皮肤的明暗层次,全都在。
第二个是一个亚洲女人的面容。
镜头跟随着一扇剥落的门缝,她从阴影里缓缓探出头来,指尖轻扶门框,泪水在脸颊上滑落。微颤的睫毛、紧抿的唇线,在斑驳光影中皮肤的细小褶皱,像一个真实存在过、此刻正在难受的人。
2
第二个问题,是物理规律。
我们可以看下V6生成的第一视角搏击镜头。
这类镜头是AI的传统难题:运镜晃动、肢体快速挥动、昏暗打光,任何一个环节出问题都会穿帮。
但这次的结果是,镜头推进和晃动的节奏都是有逻辑的,布满纹身的手臂挥出时的动态模糊方向,还有窄通道里冷调蓝灰光线切割空间的氛围感。
3
第三点是色彩。
做过影视后期的人都知道,真正高级的画面,颜色是很克制的。
电影级的调色做的是减法,把色彩控制在一个很窄的范围里,让观众的眼睛在画面里自然流淌。
AI工具反其道而行,为了显得高级,往往做加法,颜色推得很满,高光过曝,阴影过深,滤镜很重,结果反而显得更廉价。
但我们可以看一下这个拍我V6生成的火车行驶的跟拍镜头,非常的自然,高速转动的车轮、连杆的协同运作、碎石道床在震动中的细微位移。
如果我不说这是AI生成的片段,你可能真的很难分辨出来。
4
接下来说说场景复杂度与空间连贯性。
早期AI视频有一个致命短板:它可以生成一个好看的画面,但生成不了一个可信的空间。
画面里的物体之间没有正确的遮挡关系,远处的东西和近处的东西景深是乱的,镜头一旦移动,墙壁会扭曲,桌腿会消失,整个场景像是画在一张橡皮布上,而不是存在于一个真实的三维世界里。
但我们看一下拍我V6生成的一段FPV高速穿越镜头:一架纸飞机从图书馆长廊的深处起飞,镜头死死咬住它,以第一人称视角向前猛冲。
镜头让你"成为"纸飞机,它始终把主体锁在画面正中央,周围的一切都在高速后退和模糊,但你的视觉锚点始终清晰、始终稳定。
然后是运镜本身,图书馆长廊天然形成了一点透视结构,两侧书架和灯光就是视觉引导线,把你的视线强行拉向消失点。
AI在这个基础上叠加了非常准确的径向模糊——离画面中心越远,模糊越重;越靠近纸飞机,越清晰。
整段镜头没有任何突兀的抖动或跳帧,推进感如丝般顺滑,这种运镜稳定性,放在真实的FPV穿越机飞手圈子里,也是顶级水准。
5
而且,我看了一下最新榜单,V6目前在图生视频赛道上以微弱差距仅次于Seedance 2.0,位列第二。
但有一个很现实的优势是:V6不排队,而且价格更划算。
如果你需要的是一个高性价比的平替方案,V6完全可以打这张牌。
总结一下,我觉得V6这次的进步,最核心的一点,是他们在认真处理一个过去大家都忽略的东西——审美判断。
不只是让画面更清晰,而是开始理解什么叫好看,什么叫有质感,什么叫克制。
当然,V6现在也绝非完美的,比如多人交互的场景还是有一些穿模,快速运动时细节的稳定性还有提升空间。
但在之前,我一直觉得AI视频和真实拍摄是替代关系,一方变便宜另一方就会被淘汰。
但现在我的想法变了一点,它们可能更像是不同的表达媒介。
真实拍摄有它不可替代的质感和偶然性,AI生成有它特有的可控性和某些超现实的可能性。
比如子弹时间、物理变形、某些特效,真实拍摄的成本极高,AI反而可以很轻松地做到。
包括,现在AI短剧之所以能在修仙、游戏这些领域快速跑起来,核心原因也在这里。
这些题材本来就需要大量特效,真人拍摄的成本居高不下,AI生成反而打开了一个过去根本拍不起的空间。
6
我的朋友最后问我,你觉得AI视频什么时候能真正替代真实拍摄?
我说我不知道,也不确定这是不是正确的问题。
也许更值得问的是,AI视频什么时候能真正成为一种独立的表达方式,有自己的语言,有自己的审美,而不是一直在模仿真实拍摄。
在AI短剧横行的时代,真正稀缺的不是工具,而是懂得用工具讲好故事的人。如果到后面AI视频发展到足够自然流畅,几乎与真人无异,你能接受AI短剧吗?
