AI视频别想一步到位

用 AI 做视频，你们总想着一步到位，那就会陷入该怎么样，不该怎么样的怪圈里面。

大语言模型容易陷入局部最优，所以跑长程任务需要各种约束。但是视频模型要想在足够的控制下减少瑕疵，反而要利用这种局部最优的逻辑。

当然我不是说全局不重要，而是全片生成目前本就很难实现，全片在粗放的前提下先生成的作用，是用来判断能不能实现镜头语言和视听。能实现后，再用局部最优去单独跑，才能得到满意的结果。

视频生成和跑代码，办公任务的本质区别是它无法 loop，它需要人为判断对不对，接不接，顺不顺。它没有数学意义上的量化指标，完全依靠你的审美和认知。

用我的话说，任何一个片段，都没有该怎么做不该怎么做的问题，你用首帧加提示词，还是用首尾帧，还是用参考生视频，最终需要的是你的理解。

但凡你要求高一点，这就不是靠目前的 Agent 能完成的事情。尽管现在有些在线 Agent 的效果已经取得了长足的进步，但还是不够，远远不够。

发布于上海