量子位
25-09-01 15:36 微博认证:量子位官方微博

#字节让数字人活了##字节发布新数字人模型#

AI演员又进化了!字节发布了数字人模型OmniHuman-1.5,可以仅凭“一张图+一段语音”,生成长达一分钟、情感丰富、动作自然的数字人视频。

视频案例可以看到,该模型可以:

- 支持音乐场景:单张图+歌曲,生成有虚拟歌手,包括转头等情绪动作;

- 支持提示词精准控制:像“镜头从脚扫到脸”、“角色转头看镜头”等都能执行,甚至可以做出“手戳镜头”、“烟火背景”等复杂镜头调度;

- 支持多角色同框互动:照片和音频包含多人时,每个人的语音自动匹配到不同角色,生成多角色对话视频;

- 支持非人类角色:企鹅、小鸡等拟人化角色也能生成自然表演。

过去很多数字人没法表达情绪,表情和动作都很机械。而OmniHuman-1.5创新点在于:

- Multimodal LLM Planner:灵感来源于System 1 & System 2,先听完整语音,分析内容和情绪,并像导演一样给出表演脚本;

- Multimodal Diffusion Transformer:经过上一步处理后,再把这个脚本和语音、图像、提示词融合,用来生成身体、面部、头部的连续动作,做到语义、情绪、节奏同步。

- 提出了“伪末帧(Pseudo Last Frame)”机制,通过提前预测下一帧状态,用来稳定动作逻辑,避免角色出现卡顿。

项目主页:omnihuman-lab.github.io/v1_5/