可灵动作控制功能引关注

这几天可灵2.6又在海外小爆了一波，新上线的「动作控制」功能，制造了一批又一批的魔幻现实主义视频：

让猫跳K-Pop舞蹈、指定明星模仿自己、魔改电影里的名场面⋯⋯

从我刷到的视频来看，播放和点赞数据普遍很高，堪称爆款制造机，可以说是谁先用到可灵出活，谁就能拿到一大波流量。

而可灵圈到的路人粉更是前仆后继，我关注的一个AI博主Angry Tom直接把可灵的这个版本描述为「新一代动作捕捉技术」，可以完美复制从表情到动作再到口型的各种细节。

把一个视频里的特定动作移植出来，其实一直都是视频大模型的重点发展方向之一，也有很多开源项目都实现了不错的生成效果，但把它装进可灵这种消费级应用里，加速的推背感才变得足够强烈起来。

视频大模型的使用门槛很高，或者说文本、图片、视频的控制难度是指数级增加的，到了视频这种媒介形态，光靠输入文字来做控制，非常麻烦，尤其是涉及到精细肢体动作要求的，提示词的长度会写到爆炸。

但你们想想，在现实世界里，比如拍电影的时候，会怎么做？

直接上来一个人，把导演想要的动作展示一遍，然后让演员跟着模仿，就完事儿了，对不对？跟不需要去给演员口述，左手转到什么角度，停止几秒，再挪到哪里⋯⋯

所以只要「动作控制」的能力发展下去，AI视频的生成模式就可以完全变成创作者来「垫」一段视频给自己的角色，这个「垫」的素材，可以是他自拍的，也可以是买的第三方，总之结果就是，强化AI视频「指哪打哪」的控制精度。

相当于以前AI视频的创作者只是自导，现在可以自导+自演了，你们也可以理解为可灵内置了一个新的动作绿幕系统，可以很方便的把第三方表现素材合成到作品里。

在原理上，和图片大模型的「垫」图方法是一样的，就是给AI一个示范，让它快速举一反三，本质上是在对多模态的支持之外加入了思考能力，Nano Banana Pro的出圈也是靠这个，都不需要给图反推提示词了，直接让它根据你提供的图片风格做新的主题，出来的质量就已经很能打了。

你们如何评价可灵在2026年上的这第一场分？

#AI动作控制# http://t.cn/AXbfeugD

发布于贵州