AI视频制作流程解析

前两天分享过一部机甲 K-pop 短片（http://t.cn/AXInllZT）。制作这部 AI 短片的 Higgsfield 创作团队详细介绍了影片制作的完整过程、提示词和制作过程中的各种技巧，干货满满。

要想制作一部专业的 AI 影片，首先遇到的就是角色一致性问题。玩过 AI 视频的人都知道，生成一个好看的角色不难，难的是她在四十个镜头里还是同一个人。创作团队摸出了一套三步流程。

先用 Soul Cinema 单独生成面部，再单独生成服装，最后用 Nana Banana Pro 把两者融合成一张 “试镜照”。关键点在于脸和衣服绝对不要在同一个提示词里生成，分开做才有控制力。还有一个细节很妙，主角 Haru 鼻子上那个创可贴是被明确写进提示词的，就这么一个小东西，锚定了角色身份，防止生成漂移。创作团队给大家的忠告 “细节锚定角色，泛泛的描述只会漂移”，这句话建议所有做 AI 视频的人贴墙上。

世界观构建这块，他们把氛围营造丢给 Claude，让它扩展成专业摄影语言。不是那种常见的黑暗末日风，而是要 “黄金时段的朦胧感，像城市正在被什么东西慢慢吞噬”，这样的 “诡异的温暖”。

怪兽设计也很有意思。他们先生成了多个怪兽变体概念图片，最后通过 Nana Banana Pro 将它们融合到了一起，这才得到了纯靠提示词写不出来的效果。

但真正体现功力的是动画制作环节。大多数人写提示词只写 “机甲打了怪物一拳”，这不是导演指令，这只是一句描述。创作团队写的是物理效果，撞击后身体的重量、地面的塌陷、具体的视觉余波。只有当你描述力对物体的作用时，模型才能理解质量和动量，才能给出一记真正有分量的重拳。同样的思路也用在了镜头语言上，提示词里写的不只是角色长什么样，还包括镜头的震动、重新构图、撞击后的稳定，这才是酷炫静态图和真正场景之间的差距。

K-pop 片段是最让人意外的。五个角色同步跳舞，对 AI 来说极难，大多数模型只会聚焦一个主体，其他人就开始乱飘。创作团队做了两件事，一是把单独生成的音轨和歌词作为素材直接给 Seedance，让模型在生成动作之前就掌握了节拍。二是选择放手，提示词里没有任何逐帧编排的指令，就给了 “K-pop” 这个概念，让模型自己理解同步队形该是什么样。控制得少，效果反而好。

整套流程拆开看其实不复杂，Soul Cinema 负责面部和服装，Nana Banana Pro 负责融合，Claude 负责世界观扩写，Seedance 2.0 负责最终的视频生成。但把它们串成一条能稳定出片的流水线，背后是对每个环节颗粒度的理解。这个项目说明了一件事，AI 视频的天花板已不再是工具，而是创作者是否具备导演思维。

#Seedance2.0##AI视频制作##AI短片##AI创造营# http://t.cn/AXMtkJPR

发布于上海