AI短剧技术分析

最近跟一个做短剧的朋友吃饭，聊到了现在AI短剧的大趋势。

他说他们公司今年压力也很大，不仅仅是来自同行，更多的是来自AI。

现在各大短视频平台都在密集推AI短剧，包括前两天也看到什么男二以下的演员不需要真人了，直接AI做，还有直接基于真人建模的AI演员官宣。

现在纯AI生成的短剧，虽然观看率只有34.5%，大概是AI辅助真人短剧的一半，但用户对它的未来观看兴趣高达68.3%。

也就是说，现在看的人虽然还不多，但大家都觉得以后会看。

基于这个判断，已经有很多人开始把注意力转向纯AI生成短剧了。

1
我朋友说，他们公司今年也开始用AI工具做素材，确实省下了不少成本。

但有一个问题一直没解决，就是每次剪完发给甲方，对方看两眼就说，这个不行，太AI了。

他说他也知道像，但明明分辨率是够的，光线也对，演员长得也好看，但你看一眼，还是感觉一眼AI。

我思考了一下原因，大概是因为人眼是非常古老的器官，进化了几十万年，专门用来辨认真实世界里的信息。
皮肤的纹理、肌肉运动时的细小形变、一个人在说话时眼角的细微抽动。

这些东西虽然你平时不会注意，但大脑一直在扫描。

一旦有任何一个细节不对，大脑不会告诉你哪里不对，它只会发一个信号：假的。

但最近，我注意到Pixverse发布了V6，重点升级了审美与镜头质感，真正具备电影级表现力，但我还是想看下它关于AI生成视频的「假人感」问题有没有被解决。

当然，现在市面上也有很多AI视频工具会依赖图生视频来提升准确率，但下面都是用Pixverse V6纯文生视频的效果，参考价值会更高一点～

1
先说人像。

早期AI视频工具处理人脸，皮肤会过度光滑，像蒙了一层磨皮滤镜，毛孔和细纹全消失了。

眼神是空的，就像玻璃眼，没有焦距，没有情绪，微表情更是几乎不存在，人在表达情绪的时候，嘴角、眉头、眼周的肌肉是一直在细微运动的，AI生成往往只有大动作，细节是一片死寂。

这几个问题叠在一起，就变成了AI视频的「假人感」。

但拍我V6的人像近景效果如何呢？

第一个是一双老人的手。

镜头跟随着一双布满岁月痕迹的手，从格子布篮里拾起红褐色的果实，拇指和食指捏合、旋转，剥开外皮。粗糙的掌纹、微颤的指节，在阳光下皮肤的明暗层次，全都在。

第二个是一个亚洲女人的面容。

镜头跟随着一扇剥落的门缝，她从阴影里缓缓探出头来，指尖轻扶门框，泪水在脸颊上滑落。微颤的睫毛、紧抿的唇线，在斑驳光影中皮肤的细小褶皱，像一个真实存在过、此刻正在难受的人。

2
第二个问题，是物理规律。

我们可以看下V6生成的第一视角搏击镜头。

这类镜头是AI的传统难题：运镜晃动、肢体快速挥动、昏暗打光，任何一个环节出问题都会穿帮。

但这次的结果是，镜头推进和晃动的节奏都是有逻辑的，布满纹身的手臂挥出时的动态模糊方向，还有窄通道里冷调蓝灰光线切割空间的氛围感。

3
第三点是色彩。

做过影视后期的人都知道，真正高级的画面，颜色是很克制的。

电影级的调色做的是减法，把色彩控制在一个很窄的范围里，让观众的眼睛在画面里自然流淌。

AI工具反其道而行，为了显得高级，往往做加法，颜色推得很满，高光过曝，阴影过深，滤镜很重，结果反而显得更廉价。

但我们可以看一下这个拍我V6生成的火车行驶的跟拍镜头，非常的自然，高速转动的车轮、连杆的协同运作、碎石道床在震动中的细微位移。

如果我不说这是AI生成的片段，你可能真的很难分辨出来。

4
接下来说说场景复杂度与空间连贯性。

早期AI视频有一个致命短板：它可以生成一个好看的画面，但生成不了一个可信的空间。

画面里的物体之间没有正确的遮挡关系，远处的东西和近处的东西景深是乱的，镜头一旦移动，墙壁会扭曲，桌腿会消失，整个场景像是画在一张橡皮布上，而不是存在于一个真实的三维世界里。

但我们看一下拍我V6生成的一段FPV高速穿越镜头：一架纸飞机从图书馆长廊的深处起飞，镜头死死咬住它，以第一人称视角向前猛冲。

镜头让你"成为"纸飞机，它始终把主体锁在画面正中央，周围的一切都在高速后退和模糊，但你的视觉锚点始终清晰、始终稳定。

然后是运镜本身，图书馆长廊天然形成了一点透视结构，两侧书架和灯光就是视觉引导线，把你的视线强行拉向消失点。

AI在这个基础上叠加了非常准确的径向模糊——离画面中心越远，模糊越重；越靠近纸飞机，越清晰。

整段镜头没有任何突兀的抖动或跳帧，推进感如丝般顺滑，这种运镜稳定性，放在真实的FPV穿越机飞手圈子里，也是顶级水准。

5
而且，我看了一下最新榜单，V6目前在图生视频赛道上以微弱差距仅次于Seedance 2.0，位列第二。

但有一个很现实的优势是：V6不排队，而且价格更划算。

如果你需要的是一个高性价比的平替方案，V6完全可以打这张牌。

总结一下，我觉得V6这次的进步，最核心的一点，是他们在认真处理一个过去大家都忽略的东西——审美判断。

不只是让画面更清晰，而是开始理解什么叫好看，什么叫有质感，什么叫克制。

当然，V6现在也绝非完美的，比如多人交互的场景还是有一些穿模，快速运动时细节的稳定性还有提升空间。

但在之前，我一直觉得AI视频和真实拍摄是替代关系，一方变便宜另一方就会被淘汰。

但现在我的想法变了一点，它们可能更像是不同的表达媒介。
真实拍摄有它不可替代的质感和偶然性，AI生成有它特有的可控性和某些超现实的可能性。

比如子弹时间、物理变形、某些特效，真实拍摄的成本极高，AI反而可以很轻松地做到。

包括，现在AI短剧之所以能在修仙、游戏这些领域快速跑起来，核心原因也在这里。

这些题材本来就需要大量特效，真人拍摄的成本居高不下，AI生成反而打开了一个过去根本拍不起的空间。

6
我的朋友最后问我，你觉得AI视频什么时候能真正替代真实拍摄？

我说我不知道，也不确定这是不是正确的问题。

也许更值得问的是，AI视频什么时候能真正成为一种独立的表达方式，有自己的语言，有自己的审美，而不是一直在模仿真实拍摄。

在AI短剧横行的时代，真正稀缺的不是工具，而是懂得用工具讲好故事的人。如果到后面AI视频发展到足够自然流畅，几乎与真人无异，你能接受AI短剧吗？

发布于上海