前两天分享过一部机甲 K-pop 短片(http://t.cn/AXInllZT)。制作这部 AI 短片的 Higgsfield 创作团队详细介绍了影片制作的完整过程、提示词和制作过程中的各种技巧,干货满满。
要想制作一部专业的 AI 影片,首先遇到的就是角色一致性问题。玩过 AI 视频的人都知道,生成一个好看的角色不难,难的是她在四十个镜头里还是同一个人。创作团队摸出了一套三步流程。
先用 Soul Cinema 单独生成面部,再单独生成服装,最后用 Nana Banana Pro 把两者融合成一张 “试镜照”。关键点在于脸和衣服绝对不要在同一个提示词里生成,分开做才有控制力。还有一个细节很妙,主角 Haru 鼻子上那个创可贴是被明确写进提示词的,就这么一个小东西,锚定了角色身份,防止生成漂移。创作团队给大家的忠告 “细节锚定角色,泛泛的描述只会漂移”,这句话建议所有做 AI 视频的人贴墙上。
世界观构建这块,他们把氛围营造丢给 Claude,让它扩展成专业摄影语言。不是那种常见的黑暗末日风,而是要 “黄金时段的朦胧感,像城市正在被什么东西慢慢吞噬”,这样的 “诡异的温暖”。
怪兽设计也很有意思。他们先生成了多个怪兽变体概念图片,最后通过 Nana Banana Pro 将它们融合到了一起,这才得到了纯靠提示词写不出来的效果。
但真正体现功力的是动画制作环节。大多数人写提示词只写 “机甲打了怪物一拳”,这不是导演指令,这只是一句描述。创作团队写的是物理效果,撞击后身体的重量、地面的塌陷、具体的视觉余波。只有当你描述力对物体的作用时,模型才能理解质量和动量,才能给出一记真正有分量的重拳。同样的思路也用在了镜头语言上,提示词里写的不只是角色长什么样,还包括镜头的震动、重新构图、撞击后的稳定,这才是酷炫静态图和真正场景之间的差距。
K-pop 片段是最让人意外的。五个角色同步跳舞,对 AI 来说极难,大多数模型只会聚焦一个主体,其他人就开始乱飘。创作团队做了两件事,一是把单独生成的音轨和歌词作为素材直接给 Seedance,让模型在生成动作之前就掌握了节拍。二是选择放手,提示词里没有任何逐帧编排的指令,就给了 “K-pop” 这个概念,让模型自己理解同步队形该是什么样。控制得少,效果反而好。
整套流程拆开看其实不复杂,Soul Cinema 负责面部和服装,Nana Banana Pro 负责融合,Claude 负责世界观扩写,Seedance 2.0 负责最终的视频生成。但把它们串成一条能稳定出片的流水线,背后是对每个环节颗粒度的理解。这个项目说明了一件事,AI 视频的天花板已不再是工具,而是创作者是否具备导演思维。
#Seedance2.0##AI视频制作##AI短片##AI创造营# http://t.cn/AXMtkJPR
发布于 上海
