浙大和阿里这个OmniAvatar是我看到过的目前最逼真的开源虚拟人视频生成模型了：不仅是嘴型，手势、背景和交互的物品都可以动！而且可以做表情和动作的精细控制！（不过看了一下模型list，他不是传统的图转虚拟人动画模型，而是融合了一系列文生视频和音频生成模型，所以也不奇怪了~）Efficient Audio-

浙大和阿里这个OmniAvatar是我看到过的目前最逼真的开源虚拟人视频生成模型了：不仅是嘴型，手势、背景和交互的物品都可以动！而且可以做表情和动作的精细控制！（不过看了一下模型list，他不是传统的图转虚拟人动画模型，而是融合了一系列文生视频和音频生成模型，所以也不奇怪了~）
Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation （高效的音频驱动自适应身体动画虚拟人视频生成）
🧐 OmniAvatar 提出了一种突破性的音频驱动虚拟人全身视频生成模型，不仅提升了唇形同步的准确性，还实现了自然、流畅的全身动画，并支持精细的文本提示控制。
➡️链接：http://t.cn/A6DQQyT4
✨重点

●🎥 反常识创新：现有方法主要聚焦于面部动画，OmniAvatar 则突破局限，生成自然、同步且全身动作丰富的视频。
●🔊 核心技术：提出像素级多层次音频嵌入策略，更好地在潜空间中捕捉音频特征，从而提升不同场景下的唇形同步效果。
●⚙️ 训练方式：采用基于 LoRA 的训练方案，在保留基础模型提示控制能力的同时有效融合音频特征，参数高效、易于训练。
●🕺 精细控制能力：支持通过文本提示控制运动幅度、情绪（如高兴、愤怒、惊讶、悲伤）、背景和场景，例如骑摩托、网吧背景、空气特效、相机拉远等。
●🤝 人机交互拓展：能够在说话的同时与物体互动，显著拓宽了音频驱动数字人的应用场景。
●🎙️ 多领域应用：可用于播客、互动场景、动态场景和演唱等多种应用场景。
●🏗️ 架构概览：以基础生成模型为骨干，引入LoRA模块并结合音频特征进行训练，从而在保留基础能力的同时大幅增强动画表现。
●📄 开源与引用：论文已发布在arXiv（2506.18866），提供了BibTeX引用供学术引用。

#AI白日梦想家[超话]# #ai创造营# #你好人工智能时代# #ai生活指南# #微博兴趣创作计划#

发布于广西