SoulX-FlashTalk模型开源

牛，Soul AI Lab开源了首个14B实时数字人模型：SoulX-FlashTalk，首帧延迟0.87秒，连续输出32 FPS

0.87秒+32 FPS的实时吞吐量，也就是说等待时间几乎无察觉，生成动画流畅无卡顿感

从效果看唇形同步还算相对精准，手势头部动作比较自然，肢体动作目前主要集中在头部和上半身的手势

支持超长视频稳定生成

其采用双向流式蒸馏保留片段内双向注意力，配合多步回顾式自纠错机制，来保持长时生成稳定不崩帧

搞直播/播客、视频会议、虚拟客服、多语种等场景的可以用起来试试

github：http://t.cn/AXq9xlro

#数字人##虚拟直播##SoulX-FlashTalk#

发布于山西