阿里开源了一个实时、可交互、无限时长的虚拟人主播生成器，实时生成影像+声音！🫨 虽然现在还要5*H800才能实现20帧，但是感觉未来的虚拟人应该不需要3D模型做后端支撑了🥹{Live Avatar / Live Avatar：实时流式无限长交互式虚拟人视频生成框架}🧐Live Avatar是由Giant AI Lab开发的140亿参数

阿里开源了一个实时、可交互、无限时长的虚拟人主播生成器，实时生成影像+声音！🫨 虽然现在还要5*H800才能实现20帧，但是感觉未来的虚拟人应该不需要3D模型做后端支撑了🥹
{Live Avatar / Live Avatar：实时流式无限长交互式虚拟人视频生成框架}

🧐Live Avatar是由Giant AI Lab开发的140亿参数扩散模型驱动的实时视频生成框架，支持20 FPS流式生成与10,000+秒无限长视频创作，通过Block-wise Autoregressive处理实现实时对话交互与多模态生成能力。

➡️链接：
http://t.cn/AXyORKoj

✨重点
●🔄【核心技术】
🎚️Distribution Matching Distillation：将14B多步扩散模型压缩为4步流式模型
🏗️Timestep-forcing Pipeline Parallelism (TPP)：跨设备解耦降噪阶段，实现线性速度提升
🌀Rolling RoPE：动态更新位置编码稳定长序列身份
🛡️Adaptive Attention Sink (AAS)：以生成帧替代初始参考消除分布漂移
🧪History Corrupt：注入噪声模拟推理误差，提取历史运动与稳定细节
●🎥【性能指标】
🔢5 H800 GPU集群实现20 FPS 4步采样
🔄Block-wise Autoregressive处理支持10,000+秒无漂移生成
📊84× FPS提升（对比基线），无需量化压缩
●🤖【应用场景】
🗣️实时对话：麦克风/摄像头输入驱动虚拟人实时响应
🤝Qwen3-Omni集成：支持自主代理间流式对话
🎨多模态生成：肖像/卡通/长视频等多样化内容创作
●🔍【技术突破】
解决长序列生成三大痛点：推理漂移、分布漂移、误差累积
动态RoPE与自适应注意力机制实现身份稳定
历史信息注入模拟真实推理误差提升鲁棒性
（注：所有展示内容均为AIGC生成，包含生成视频、对比分析及技术原理详解）

#AI白日梦想家[超话]# #ai创造营# #ai生活指南#

发布于广西