这几天可灵2.6又在海外小爆了一波,新上线的「动作控制」功能,制造了一批又一批的魔幻现实主义视频:
让猫跳K-Pop舞蹈、指定明星模仿自己、魔改电影里的名场面⋯⋯
从我刷到的视频来看,播放和点赞数据普遍很高,堪称爆款制造机,可以说是谁先用到可灵出活,谁就能拿到一大波流量。
而可灵圈到的路人粉更是前仆后继,我关注的一个AI博主Angry Tom直接把可灵的这个版本描述为「新一代动作捕捉技术」,可以完美复制从表情到动作再到口型的各种细节。
把一个视频里的特定动作移植出来,其实一直都是视频大模型的重点发展方向之一,也有很多开源项目都实现了不错的生成效果,但把它装进可灵这种消费级应用里,加速的推背感才变得足够强烈起来。
视频大模型的使用门槛很高,或者说文本、图片、视频的控制难度是指数级增加的,到了视频这种媒介形态,光靠输入文字来做控制,非常麻烦,尤其是涉及到精细肢体动作要求的,提示词的长度会写到爆炸。
但你们想想,在现实世界里,比如拍电影的时候,会怎么做?
直接上来一个人,把导演想要的动作展示一遍,然后让演员跟着模仿,就完事儿了,对不对?跟不需要去给演员口述,左手转到什么角度,停止几秒,再挪到哪里⋯⋯
所以只要「动作控制」的能力发展下去,AI视频的生成模式就可以完全变成创作者来「垫」一段视频给自己的角色,这个「垫」的素材,可以是他自拍的,也可以是买的第三方,总之结果就是,强化AI视频「指哪打哪」的控制精度。
相当于以前AI视频的创作者只是自导,现在可以自导+自演了,你们也可以理解为可灵内置了一个新的动作绿幕系统,可以很方便的把第三方表现素材合成到作品里。
在原理上,和图片大模型的「垫」图方法是一样的,就是给AI一个示范,让它快速举一反三,本质上是在对多模态的支持之外加入了思考能力,Nano Banana Pro的出圈也是靠这个,都不需要给图反推提示词了,直接让它根据你提供的图片风格做新的主题,出来的质量就已经很能打了。
你们如何评价可灵在2026年上的这第一场分?
#AI动作控制# http://t.cn/AXbfeugD
发布于 贵州
