阑夕
26-06-02 21:34 微博认证:逐鹿网(www.zhulu.com)创始人 长文原创作者 2024微博年度新知博主

由于Seedance 2.0排队过于严重,我前段时间一直在尝试别的方法,把市面上大小主流工作站都用了一遍后,最终留下了LibTV这款画布型产品。

至于原因,价格实惠当然是一方面——调用Seedance 2.0最低只需要0.36元/秒——更深得我心的,其实是这款产品已经做到了一种近乎于模块化的易用性。

什么意思呢?

随着AI大模型的爆发,我们通过一个对话框已经实现了很多以前力所不能及的事,很多人已经把跟AI对话当成日常习惯来使用了。

但我一直觉得,拿所谓的自然语言喂给AI生成视频这事,总有一种说不上来的别扭。

大致是因为人类是视觉动物,把看到的画面转译成复杂的描述,这过程本身就会导致极高的损耗和误差。

所以能肉眼可见地看到,AI短剧赛道里很多作品其实是「凑合」出来的,打光、镜头、剧本、运镜,想在这些地方追求精益求精,就意味着创作者要负担更高的时间和抽卡成本,有钱有人的大厂这么干肯定没毛病,但很多中小公司是烧不起的。

于是把创作模块化就成了很好的思路,如果觉得这么说还是有点抽象的话,可以先看看这条复刻影史经典镜头的作品。(视频1)

很多博主也做过类似的题材,它们的难度基本跟画面的复杂程度成正比,角色越多,就越是要精细地描述出人物站位、神态和空间关系,AI在理解过程中产生的任何偏差,都足以让整个镜头推倒重来。

说人话就是,单让AI去猜你的意图,猜中才是小概率事件,所以才会有那么多废片的抽卡成本。

但依靠LibTV的内置功能,实现上面的复刻效果,基本只需要几步而已,比如在机动部队x哆啦A梦这起案例中,我的工作流就是这样的:

- 批量上传角色图片,一键生成渲染图(图1)

- 在3D导演台中摆放角色站位(图2)

- 用720°全景功能一键分离原视频背景(图3、4)

- 把以上这些元素组合起来,输入我想要的角色站位提示词,得到成片(视频2)

这就是模块化的意思,用户既不需要掌握什么提示词技巧,也不用理解何为镜头语言,就能毫不费力地把视频「搭」起来。

当然,这过程基本都是LibTV里很多独家功能在疯狂立功。

比如最亮眼的3D导演台,在高自由度、高客制化的同时,还能保持一眼就懂的易用性,角色的站位与姿势、摄像机的角度和远近、物体的摆放与体积,这些仅仅用鼠标拖动+点击就能实现,在模型能力的基础上,衍生出了言出法随、指哪打哪的爽感。

我觉得降门槛、增产能,是工具类产品最有机会切入和改变的市场,前者可以支持新手快速出片,后者则赋予专业团队得心应手事半功倍的能力,价值是要远远大于反复抽卡折腾的。

事实证明,只要于生产力有益,好的模型和产品就永远不愁卖。

从看不起,到用不上,短短几个月的时间里,海内外AI视频创作条件就发生了两级反转,甚至可以说,中国科技公司很少打过这么富裕的仗。

但可以确定,这不会、也不可能是最后一站,AI的狂奔,早晚有一天能跑到人类想象力的前头,或许,就可以从一张画布开始。

发布于 北京