今天朋友转发给我一篇文章,说一定要看完!
我看了一下是极客公园发的,对话快手可灵负责人盖坤。
看完以后,确实醍醐灌顶,很推荐你们有时间也找访谈原文看一下。
最近那部AI短片《纸手机》,很多人朋友圈应该刷到过。全片五分钟,在没有大规模宣发的情况下,全网播放量破亿。
看完之后真的要缓好一会儿。
但我今天想聊的,不是这个短片,而是它背后很多人可能不知道的故事。
《纸手机》是用可灵AI做的,这件事在片子走红之后被反复提起,我身边很多行业内的朋友也都非常惊讶。
我当时看完短片,第一反应也是好奇:这家公司到底是怎么走到这一步的?
然后我去看了这期采访。看完以后,我觉得找到答案了。
1
其实早在可灵 1.0 的起步阶段,可灵团队在快手内部还属于是「默默无名」的状态。
资源不多,连训练用的显卡都凑不齐英伟达的标准配置,靠各种杂牌卡和AMD卡拼算力。
然后在2024年春节,OpenAI发布了Sora的演示视频,那段视频震动了整个行业,画面质量之高,让很多人当场放弃了追赶的念头。
Sora摆在那里,像一个无法翻越的标准。
但就在那个春节假期,可灵AI的负责人盖坤,给自己的团队布置了一道题:如果我们要复现Sora,技术方案是什么?
假期结束,团队开了一次会,盖坤拍板了一个让整个团队惊呆的目标:放弃所有其他技术路线,全押DiT架构,做全球第一个用户可用的视频生成大模型,并且超越Sora。
这不是一个谨慎的决策,而是一个带着点蛮劲儿的赌注。
2
那盖坤当时是怎么说服自己、说服团队的呢?
他的逻辑有两层。
第一层是:这是上顶级牌桌的唯一机会。
如果不搏这一把,可灵很可能会陷入一个恶性循环——做得平庸、拿不到资源、最后被淘汰。
第二层是:我们本来就是Nobody,输了还是Nobody,但赢了就彻底改变命运。
可灵当时什么都没有,反而可以押一个「输了还是原地,赢了就改天换地」的赌注。
正如盖坤所说:「敢不敢是前置条件,不决策,连上桌的机会都没有。」
盖坤当时的判断是,OpenAI发完Sora的demo,是为了在时间节点上阻击Google,任务完成之后核心资源大概率会回到语言模型上,视频方向会有一段相对宽松的窗口期。
事实证明,这确实给可灵留出了大概半年的窗口期,OpenAI直到当年12月才真正把Sora对用户开放。
最终,可灵在2024年6月6日正式发布,成了全球第一个真正对用户开放的DiT架构视频生成模型。
3
产品发出来之后,可灵没有在原地庆祝,而是开始解决下一个问题。
大多数AI视频的团队,思路是沿着「文生视频、图生视频」这一步步往前走的,每个版本提升一点指标,用户和市场都会给正向反馈,团队能持续获得确定性的奖励。
可灵也走过这段路,从1.0、1.5、1.6到2.0。
但盖坤在2024年就定下了一个不同的方向:多模态。
他的逻辑是从「终极目标」倒推出来的,因为可灵的愿景,是让每个人都能把脑海中的电影拍出来。
这个目标一旦确定,就会发现一个明显的问题:语言,作为目前人与AI沟通的主要方式,在视觉表达上非常受限。
比如你想让AI生成一个角色,这个角色要在多个镜头里保持一致的外貌。
用文字你怎么描述?高鼻梁、双眼皮、脸型偏长……说到最后你会发现,这些描述永远无法还原你脑海里那个具体的人。
可灵团队意识到这一点之后,开始做一件事:引入更多模态。
图片、视频、动作序列……这些都可以成为用户表达意图的方式。
用户提供一张参考图,AI就能理解你要的那张脸;用户上传一段动作视频,AI就能让角色按那个方式运动。
这就是可灵3.0的核心逻辑:All-in-One的多模态架构,让输入和输出都不再局限于文字。
4
聊到这里,我想说一个更大的背景,不然可灵这件事只会被理解成「一个运气好的团队做对了几个决策」。
盖坤在和极客公园创始人张鹏的对谈里,把过去二十年的企业创新分成了三个阶段。
前两个阶段,我们都很熟悉。
第一个阶段是产品与运营驱动,典型代表是阿里早期的To B能力和腾讯的社交产品,核心是搞定供给侧,算法在这里不是必要条件。
第二个阶段是算法与AB实验驱动,典型代表是Google搜索、字节和快手的推荐系统。
通过大量实验在有限候选集里找最优解,但这套方法有天花板。
第三个阶段,也就是大模型时代,这套东西失效了。
一次尝试的代价动辄千万美金起步,而且创新是在近乎无限的可能性空间里寻找不存在的路径。
你面对的是一个没有地图的空间,你不知道路在哪,AB实验能帮你在已知的路上选最优解,但它没法告诉你该往哪个方向走。
核心变成了:要有一个足够强的顶层判断,能在茫茫的可能性中押注对的方向。
快手在资源上不是最多的,但它有一个现成的、在「视频理解」和「生成」上都有真实积累的团队。
这是可灵能快速落地的基础。
但更关键的是,这个团队有一个愿意在没有共识的时候押注一个方向的负责人,并且能在团队所有人都觉得目标离谱的情况下,把人拉着一起往前走。
5
最后说回《纸手机》。
看完之后我在想,这件事能发生,需要同时满足几个条件:
技术上要能生成足够有质感的画面,让情感得以传递;
产品上要足够好用,让不是专业电影人的创作者也能把想法做出来;
还有一点最容易被忽略——要有人真的想拍这个故事,而不是想拍一个「能展示AI技术有多强」的视频。
《纸手机》里有真实的情感,有对失去的体会,有一个孩子面对死亡时的那种懵懂。
这些是创作者带来的,不是AI生成的。
可灵做的事情,是让这种表达可以被看见。
盖坤说,他最初想用AI拍出自己心目中的《三体》,那种宇宙史诗感,那种他从没在任何改编版本里看到的东西。
这是一个很私人的冲动,但他把它变成了一个产品愿景:让每个人都能拍出自己心中的故事。
