可灵AI负责人谈《纸手机》创作

今天朋友转发给我一篇文章，说一定要看完！

我看了一下是极客公园发的，对话快手可灵负责人盖坤。
看完以后，确实醍醐灌顶，很推荐你们有时间也找访谈原文看一下。

最近那部AI短片《纸手机》，很多人朋友圈应该刷到过。全片五分钟，在没有大规模宣发的情况下，全网播放量破亿。
看完之后真的要缓好一会儿。

但我今天想聊的，不是这个短片，而是它背后很多人可能不知道的故事。

《纸手机》是用可灵AI做的，这件事在片子走红之后被反复提起，我身边很多行业内的朋友也都非常惊讶。
我当时看完短片，第一反应也是好奇：这家公司到底是怎么走到这一步的？

然后我去看了这期采访。看完以后，我觉得找到答案了。

1
其实早在可灵 1.0 的起步阶段，可灵团队在快手内部还属于是「默默无名」的状态。

资源不多，连训练用的显卡都凑不齐英伟达的标准配置，靠各种杂牌卡和AMD卡拼算力。

然后在2024年春节，OpenAI发布了Sora的演示视频，那段视频震动了整个行业，画面质量之高，让很多人当场放弃了追赶的念头。
Sora摆在那里，像一个无法翻越的标准。

但就在那个春节假期，可灵AI的负责人盖坤，给自己的团队布置了一道题：如果我们要复现Sora，技术方案是什么？

假期结束，团队开了一次会，盖坤拍板了一个让整个团队惊呆的目标：放弃所有其他技术路线，全押DiT架构，做全球第一个用户可用的视频生成大模型，并且超越Sora。

这不是一个谨慎的决策，而是一个带着点蛮劲儿的赌注。

2
那盖坤当时是怎么说服自己、说服团队的呢？

他的逻辑有两层。

第一层是：这是上顶级牌桌的唯一机会。
如果不搏这一把，可灵很可能会陷入一个恶性循环——做得平庸、拿不到资源、最后被淘汰。

第二层是：我们本来就是Nobody，输了还是Nobody，但赢了就彻底改变命运。
可灵当时什么都没有，反而可以押一个「输了还是原地，赢了就改天换地」的赌注。

正如盖坤所说：「敢不敢是前置条件，不决策，连上桌的机会都没有。」

盖坤当时的判断是，OpenAI发完Sora的demo，是为了在时间节点上阻击Google，任务完成之后核心资源大概率会回到语言模型上，视频方向会有一段相对宽松的窗口期。

事实证明，这确实给可灵留出了大概半年的窗口期，OpenAI直到当年12月才真正把Sora对用户开放。

最终，可灵在2024年6月6日正式发布，成了全球第一个真正对用户开放的DiT架构视频生成模型。

3
产品发出来之后，可灵没有在原地庆祝，而是开始解决下一个问题。

大多数AI视频的团队，思路是沿着「文生视频、图生视频」这一步步往前走的，每个版本提升一点指标，用户和市场都会给正向反馈，团队能持续获得确定性的奖励。

可灵也走过这段路，从1.0、1.5、1.6到2.0。

但盖坤在2024年就定下了一个不同的方向：多模态。

他的逻辑是从「终极目标」倒推出来的，因为可灵的愿景，是让每个人都能把脑海中的电影拍出来。

这个目标一旦确定，就会发现一个明显的问题：语言，作为目前人与AI沟通的主要方式，在视觉表达上非常受限。

比如你想让AI生成一个角色，这个角色要在多个镜头里保持一致的外貌。

用文字你怎么描述？高鼻梁、双眼皮、脸型偏长……说到最后你会发现，这些描述永远无法还原你脑海里那个具体的人。

可灵团队意识到这一点之后，开始做一件事：引入更多模态。
图片、视频、动作序列……这些都可以成为用户表达意图的方式。

用户提供一张参考图，AI就能理解你要的那张脸；用户上传一段动作视频，AI就能让角色按那个方式运动。

这就是可灵3.0的核心逻辑：All-in-One的多模态架构，让输入和输出都不再局限于文字。

4
聊到这里，我想说一个更大的背景，不然可灵这件事只会被理解成「一个运气好的团队做对了几个决策」。

盖坤在和极客公园创始人张鹏的对谈里，把过去二十年的企业创新分成了三个阶段。

前两个阶段，我们都很熟悉。
第一个阶段是产品与运营驱动，典型代表是阿里早期的To B能力和腾讯的社交产品，核心是搞定供给侧，算法在这里不是必要条件。

第二个阶段是算法与AB实验驱动，典型代表是Google搜索、字节和快手的推荐系统。
通过大量实验在有限候选集里找最优解，但这套方法有天花板。

第三个阶段，也就是大模型时代，这套东西失效了。
一次尝试的代价动辄千万美金起步，而且创新是在近乎无限的可能性空间里寻找不存在的路径。

你面对的是一个没有地图的空间，你不知道路在哪，AB实验能帮你在已知的路上选最优解，但它没法告诉你该往哪个方向走。

核心变成了：要有一个足够强的顶层判断，能在茫茫的可能性中押注对的方向。

快手在资源上不是最多的，但它有一个现成的、在「视频理解」和「生成」上都有真实积累的团队。
这是可灵能快速落地的基础。

但更关键的是，这个团队有一个愿意在没有共识的时候押注一个方向的负责人，并且能在团队所有人都觉得目标离谱的情况下，把人拉着一起往前走。

5
最后说回《纸手机》。

看完之后我在想，这件事能发生，需要同时满足几个条件：
技术上要能生成足够有质感的画面，让情感得以传递；
产品上要足够好用，让不是专业电影人的创作者也能把想法做出来；

还有一点最容易被忽略——要有人真的想拍这个故事，而不是想拍一个「能展示AI技术有多强」的视频。

《纸手机》里有真实的情感，有对失去的体会，有一个孩子面对死亡时的那种懵懂。

这些是创作者带来的，不是AI生成的。

可灵做的事情，是让这种表达可以被看见。

盖坤说，他最初想用AI拍出自己心目中的《三体》，那种宇宙史诗感，那种他从没在任何改编版本里看到的东西。

这是一个很私人的冲动，但他把它变成了一个产品愿景：让每个人都能拍出自己心中的故事。

发布于上海