用 AI 做视频,你们总想着一步到位,那就会陷入该怎么样,不该怎么样的怪圈里面。
大语言模型容易陷入局部最优,所以跑长程任务需要各种约束。但是视频模型要想在足够的控制下减少瑕疵,反而要利用这种局部最优的逻辑。
当然我不是说全局不重要,而是全片生成目前本就很难实现,全片在粗放的前提下先生成的作用,是用来判断能不能实现镜头语言和视听。能实现后,再用局部最优去单独跑,才能得到满意的结果。
视频生成和跑代码,办公任务的本质区别是它无法 loop,它需要人为判断对不对,接不接,顺不顺。它没有数学意义上的量化指标,完全依靠你的审美和认知。
用我的话说,任何一个片段,都没有该怎么做不该怎么做的问题,你用首帧加提示词,还是用首尾帧,还是用参考生视频,最终需要的是你的理解。
但凡你要求高一点,这就不是靠目前的 Agent 能完成的事情。尽管现在有些在线 Agent 的效果已经取得了长足的进步,但还是不够,远远不够。
发布于 上海
