Simon的白日梦 25-07-16 11:40
微博认证:科技博主

浙大和阿里这个OmniAvatar是我看到过的目前最逼真的开源虚拟人视频生成模型了:不仅是嘴型,手势、背景和交互的物品都可以动!而且可以做表情和动作的精细控制!(不过看了一下模型list,他不是传统的图转虚拟人动画模型,而是融合了一系列文生视频和音频生成模型,所以也不奇怪了~)
Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation (高效的音频驱动自适应身体动画虚拟人视频生成)
🧐 OmniAvatar 提出了一种突破性的音频驱动虚拟人全身视频生成模型,不仅提升了唇形同步的准确性,还实现了自然、流畅的全身动画,并支持精细的文本提示控制。
➡️链接:http://t.cn/A6DQQyT4
✨重点

●🎥 反常识创新:现有方法主要聚焦于面部动画,OmniAvatar 则突破局限,生成自然、同步且全身动作丰富的视频。
●🔊 核心技术:提出像素级多层次音频嵌入策略,更好地在潜空间中捕捉音频特征,从而提升不同场景下的唇形同步效果。
●⚙️ 训练方式:采用基于 LoRA 的训练方案,在保留基础模型提示控制能力的同时有效融合音频特征,参数高效、易于训练。
●🕺 精细控制能力:支持通过文本提示控制运动幅度、情绪(如高兴、愤怒、惊讶、悲伤)、背景和场景,例如骑摩托、网吧背景、空气特效、相机拉远等。
●🤝 人机交互拓展:能够在说话的同时与物体互动,显著拓宽了音频驱动数字人的应用场景。
●🎙️ 多领域应用:可用于播客、互动场景、动态场景和演唱等多种应用场景。
●🏗️ 架构概览:以基础生成模型为骨干,引入LoRA模块并结合音频特征进行训练,从而在保留基础能力的同时大幅增强动画表现。
●📄 开源与引用:论文已发布在arXiv(2506.18866),提供了BibTeX引用供学术引用。

#AI白日梦想家[超话]# #ai创造营# #你好人工智能时代# #ai生活指南# #微博兴趣创作计划#

发布于 广西