#字节让数字人活了##字节发布新数字人模型#AI演员又进化了！字节发布了数字人模型OmniHuman-1.5，可以仅凭“一张图+一段语音”，生成长达一分钟、情感丰富、动作自然的数字人视频。视频案例可以看到，该模型可以：- 支持音乐场景：单张图+歌曲，生成有虚拟歌手，包括转头等情绪动作；

#字节让数字人活了##字节发布新数字人模型#

AI演员又进化了！字节发布了数字人模型OmniHuman-1.5，可以仅凭“一张图+一段语音”，生成长达一分钟、情感丰富、动作自然的数字人视频。

视频案例可以看到，该模型可以：

- 支持音乐场景：单张图+歌曲，生成有虚拟歌手，包括转头等情绪动作；

- 支持提示词精准控制：像“镜头从脚扫到脸”、“角色转头看镜头”等都能执行，甚至可以做出“手戳镜头”、“烟火背景”等复杂镜头调度；

- 支持多角色同框互动：照片和音频包含多人时，每个人的语音自动匹配到不同角色，生成多角色对话视频；

- 支持非人类角色：企鹅、小鸡等拟人化角色也能生成自然表演。

过去很多数字人没法表达情绪，表情和动作都很机械。而OmniHuman-1.5创新点在于：

- Multimodal LLM Planner：灵感来源于System 1 & System 2，先听完整语音，分析内容和情绪，并像导演一样给出表演脚本；

- Multimodal Diffusion Transformer：经过上一步处理后，再把这个脚本和语音、图像、提示词融合，用来生成身体、面部、头部的连续动作，做到语义、情绪、节奏同步。

- 提出了“伪末帧（Pseudo Last Frame）”机制，通过提前预测下一帧状态，用来稳定动作逻辑，避免角色出现卡顿。

项目主页：omnihuman-lab.github.io/v1_5/