歸藏的AI工具箱 25-08-22 20:23
微博认证:AI博主

可灵今天更新了 2.1 的首尾帧视频模型#ai创造营##ai视频#

提示词理解和遵循能力大幅提升,即使好不相关的图片也可以实现自然过渡

可以看我做的这个视频的效果,所有分镜都是一次生成没有抽卡,就是素材拼接没有剪辑

我还打磨了一套提示词和工作流帮你降低抽卡频率提高生成质量。

在模型能力很强的情况下依然需要抽卡和没办法获得好素材的原因主要有两个:

首先是没办法获得合适的图片,第二点就是有了图片之后不会写提示词。
今天藏师傅就教一下从获取合适的图片素材以及如何写提示词两方面生成优质的首尾帧视频,顺便看看可灵 2.1 的首尾帧模型有多强大。

首先我们来看一下如何获取用来做首尾帧视频生成的合适图片,我自己平时主要用三个方法:

- 相同提示词抽卡
- 修改提示词抽卡
- 使用 FLUX Kontext 等图像编辑模型对图片进行编辑。

由于是相同提示词并且很多模型在同时生成多张的时候种子是一致的,所以多张图中很容易找到相似度很高的图片,非常适合用来做展示类的首尾帧视频。

如果我们要做画面中主要人物或者物品的移动或者消失出现,一个合适的方法就是,先写出尾帧的提示词,生成图片后根据需求更改其中的一部分就行。

使用图像编辑模型编辑:

我们最近有了不少可用的图像编辑模型。通过自然语言就可以编辑图片,这样我们就能实现对图片的精确控制,制作出各种特效。
比如将扁平的 Logo 图片变成有丰富材质和背景的视频,我就是拿了一张 Logo 图片然后用图片编辑模型让他加上材质更换背景。
也可以让某个人物拿上东西或者放下东西,这个在电商场景非常实用。
当然我们也可以用这个方式去做非常炫酷的文字特效。
比如我这里就先生成了一个金属文字的 KLING,然后用图像编辑模型修改文字
我们也可以加上更加丰富的变化,比如每个分镜不止文字会变化文字材质和周围环境也发生变化。

如何生成首尾帧视频的提示词

我上面所有的首尾帧的提示词没一个是我自己写的,完全是 AI 生成的。
先给大家用来生成首尾帧视频的提示词,然后教一下大家提示词为什么这么写。
这个提示词可以生效也是因为可灵 2.1 的首尾帧提示词理解和遵循能力大幅增强的缘故。

藏师傅的首尾帧提示词生成提示:

你是一位顶尖的创意视频导演和VFX(视觉特效)概念艺术家。你的任务是为AI视频生成模型设计一个从【起始帧】到【结束帧】的转场过程。
你的核心目标是:构思并用一段话清晰、具体地描述这个动态视觉变化。
在构思时,请遵循以下创作框架:
第一步:分析差异 快速判断【起始帧】和【结束帧】的差异程度。
A类 - 关联性强: 主体或场景基本一致,只是状态、风格或环境发生改变(例如,同一个人换了衣服,同一个场景从白天到黑夜)。
B类 - 差异巨大: 主体和场景完全不同(例如,一只猫在客厅 → 一艘飞船在太空)。
第二步:选择转场策略
如果属于 A类,优先采用“原地演变”的策略。让变化直接发生在主体和环境上,尽量不使用或只使用微弱的摄像机移动。
如果属于 B类,采用“运镜驱动转场”的策略。必须使用一种明确的摄像机移动(如推、拉、摇、移、旋转)来引导过渡,让镜头运动成为连接两个不相干画面的桥梁。
第三步:构思具体变化(从以下工具箱中选择组合)
主体变化: 主体如何改变?(形态变化、材质替换、服装更替、分解重组、消失或出现)。
环境变化: 背景如何改变?(时间流逝、季节更替、空间切换、从现实变为幻想)。
风格/特效变化: 用什么视觉风格或特效来包装这个过程?(例如,画面逐渐像素化后重组、被火焰/水流吞噬后显现、转变为水彩/油画风格、出现光效粒子)。
输出规则:
将你的最终构思整合为一个连贯的段落。
描述要具体、直接,充满画面感。专注于“我们看到了什么”,而不是“我们感觉到了什么”。
严格遵守你在第二步中选择的摄像机移动策略。
避免使用模糊的比喻和过于文学化的修辞。
现在,请根据我提供的【起始帧】(图片A)和【结束帧】(图片B),生成你的转场描述。

看下这个提示词有多强,他会自动判断两张图片的差异度,然后根据差异的不同采取不同的提示词生成策略。

如果两张图片有相关性的,他就会优先用原地演变的原则主要重点放在主体和环境身上。比如让人物穿衣服,背景的植物生长来完成首尾帧的转换。

如果两张图片差异巨大甚至完全无关怎么办,他就会要求模型加上运镜进行过渡,让连贯的镜头表现变成链接两张图片的桥梁,而且模型也会自己加上一些特效变化让一个具体的材质引导画面变化,一下就让两张图片有了联系。

这套提示词也不是 LLM 凭空产生的,而是我跟模型讨论的结果。

我先规定了一些基础的提示词生成原则,比如运镜不要太多,文学性修辞和比喻不要太多,产出了一个基础的要求。
然后就开始跟模型讨论两张图片变化的本质其实就是模型对“过程”和“变化”的理解与想象。
然后就开始遍历到底两张图片之间会有哪些变化和过程,遍历了一下发现确实是可以穷尽的,然后在对这么多状态进行分类和组合,最后得出了常见的变化和组合主体变化 + 环境变化或者风格变化 + 特效变化这两种。
结合结合这两者的特点和我前面的提示词书写要求,结合生成了最终的提示词,如果你以后想写自己的提示词也可以参考这个思路。 http://t.cn/AXvqsJdk

发布于 北京