阿里开源了一个实时、可交互、无限时长的虚拟人主播生成器,实时生成影像+声音!🫨 虽然现在还要5*H800才能实现20帧,但是感觉未来的虚拟人应该不需要3D模型做后端支撑了🥹
{Live Avatar / Live Avatar:实时流式无限长交互式虚拟人视频生成框架}
🧐Live Avatar是由Giant AI Lab开发的140亿参数扩散模型驱动的实时视频生成框架,支持20 FPS流式生成与10,000+秒无限长视频创作,通过Block-wise Autoregressive处理实现实时对话交互与多模态生成能力。
➡️链接:
http://t.cn/AXyORKoj
✨重点
●🔄【核心技术】
🎚️Distribution Matching Distillation:将14B多步扩散模型压缩为4步流式模型
🏗️Timestep-forcing Pipeline Parallelism (TPP):跨设备解耦降噪阶段,实现线性速度提升
🌀Rolling RoPE:动态更新位置编码稳定长序列身份
🛡️Adaptive Attention Sink (AAS):以生成帧替代初始参考消除分布漂移
🧪History Corrupt:注入噪声模拟推理误差,提取历史运动与稳定细节
●🎥【性能指标】
🔢5 H800 GPU集群实现20 FPS 4步采样
🔄Block-wise Autoregressive处理支持10,000+秒无漂移生成
📊84× FPS提升(对比基线),无需量化压缩
●🤖【应用场景】
🗣️实时对话:麦克风/摄像头输入驱动虚拟人实时响应
🤝Qwen3-Omni集成:支持自主代理间流式对话
🎨多模态生成:肖像/卡通/长视频等多样化内容创作
●🔍【技术突破】
解决长序列生成三大痛点:推理漂移、分布漂移、误差累积
动态RoPE与自适应注意力机制实现身份稳定
历史信息注入模拟真实推理误差提升鲁棒性
(注:所有展示内容均为AIGC生成,包含生成视频、对比分析及技术原理详解)
#AI白日梦想家[超话]# #ai创造营# #ai生活指南#
