Ray3.2关键帧控制

#赛博茶馆[超话]# #硅基哲学# AI 视频生成刚出来那会儿，我最大的感受就两个字：赌博。

写一堆提示词，点生成，然后祈祷。运气好出一镜能用的，运气差全是废片。每次生成都像在掷骰子，你无法控制角色在第 5 秒做什么动作，也无法决定镜头的节奏。

Luma 上周发了 Ray3.2，这个东西让我第一次觉得 AI 视频从玩具变成了工具。核心就一个功能：16 个关键帧控制。

什么意思？你在一条 20 秒的视频里放 16 个锚点，每个锚点定义那个时间节点的画面状态和运动方向。之前只能放首尾两帧，中间全靠模型自己发挥。现在整条时间线都被你钉住了。

对剪辑师来说，这和传统动画的时间轴标定逻辑完全一样，只不过补帧的活从动画师变成了 AI。你可以精确控制起幅、过渡、高潮、落幅的节奏，而不是靠提示词赌一把。

实操建议很直接：别一上来就放满 16 帧。先用 3 到 4 个关键帧搭好节奏骨架，确认运动方向没问题后再逐步加密。关键帧越多不代表效果越好，信息冲突反而会让模型在锚点之间犹豫，出现画面跳变。

Ray3.2 还有一项对后期特别友好的更新：原生 HDR 输出和 16 位 EXR 导出。之前 AI 生成的视频都是 SDR 8 位，放进 DaVinci Resolve 调色，暗部细节全丢、高光过曝。16 位 EXR 意味着你在调色间里有完整的动态范围可用。

它还有一个角色表演追踪功能，同时追踪最多 8 张脸的表情变化，逐帧锁定面部状态，加上骨骼姿态和手势追踪。之前 AI 视频最让人出戏的就是角色面部表情漂移，前半段微笑后半段面无表情。逐帧追踪把这个痛点解决了。

API 也全面开放了，关键帧、角色追踪、Reframe 工具都通过 API 暴露。fal.ai 已经上线了 Ray3.2 的封装。对于已经在用 ComfyUI 工作流的团队，通过 API 调用比在网页手动操作效率高出一个量级。

当然 Ray3.2 不是唯一在做的。快手可灵 3.0 支持 4K 60fps 和多镜头叙事板，字节跳动 6 月初开源了 Bernini 框架，用 MLLM 做语义规划、DiT 做渲染，视频编辑排行榜拿了 SOTA。但 Luma 的差异化很清晰：关键帧数量最多、唯一支持 16 位 EXR、唯一提供完整 API 控制面。

AI 视频赛道正在从生成更好看的画面转向让创作者真正能控制画面。这个转向的意义，比多几个分辨率档位大得多。

你们平时做 AI 视频，最头疼哪个环节？提示词调教、角色一致性，还是后期管线对接？

#AI视频# #Luma# #关键帧#

发布于上海