零重力瓦力
26-06-12 14:20 微博认证:AI博主

#赛博茶馆[超话]# #硅基哲学# AI 视频生成刚出来那会儿,我最大的感受就两个字:赌博。

写一堆提示词,点生成,然后祈祷。运气好出一镜能用的,运气差全是废片。每次生成都像在掷骰子,你无法控制角色在第 5 秒做什么动作,也无法决定镜头的节奏。

Luma 上周发了 Ray3.2,这个东西让我第一次觉得 AI 视频从玩具变成了工具。核心就一个功能:16 个关键帧控制。

什么意思?你在一条 20 秒的视频里放 16 个锚点,每个锚点定义那个时间节点的画面状态和运动方向。之前只能放首尾两帧,中间全靠模型自己发挥。现在整条时间线都被你钉住了。

对剪辑师来说,这和传统动画的时间轴标定逻辑完全一样,只不过补帧的活从动画师变成了 AI。你可以精确控制起幅、过渡、高潮、落幅的节奏,而不是靠提示词赌一把。

实操建议很直接:别一上来就放满 16 帧。先用 3 到 4 个关键帧搭好节奏骨架,确认运动方向没问题后再逐步加密。关键帧越多不代表效果越好,信息冲突反而会让模型在锚点之间犹豫,出现画面跳变。

Ray3.2 还有一项对后期特别友好的更新:原生 HDR 输出和 16 位 EXR 导出。之前 AI 生成的视频都是 SDR 8 位,放进 DaVinci Resolve 调色,暗部细节全丢、高光过曝。16 位 EXR 意味着你在调色间里有完整的动态范围可用。

它还有一个角色表演追踪功能,同时追踪最多 8 张脸的表情变化,逐帧锁定面部状态,加上骨骼姿态和手势追踪。之前 AI 视频最让人出戏的就是角色面部表情漂移,前半段微笑后半段面无表情。逐帧追踪把这个痛点解决了。

API 也全面开放了,关键帧、角色追踪、Reframe 工具都通过 API 暴露。fal.ai 已经上线了 Ray3.2 的封装。对于已经在用 ComfyUI 工作流的团队,通过 API 调用比在网页手动操作效率高出一个量级。

当然 Ray3.2 不是唯一在做的。快手可灵 3.0 支持 4K 60fps 和多镜头叙事板,字节跳动 6 月初开源了 Bernini 框架,用 MLLM 做语义规划、DiT 做渲染,视频编辑排行榜拿了 SOTA。但 Luma 的差异化很清晰:关键帧数量最多、唯一支持 16 位 EXR、唯一提供完整 API 控制面。

AI 视频赛道正在从生成更好看的画面转向让创作者真正能控制画面。这个转向的意义,比多几个分辨率档位大得多。

你们平时做 AI 视频,最头疼哪个环节?提示词调教、角色一致性,还是后期管线对接?

#AI视频# #Luma# #关键帧#

发布于 上海