阿里发布首个「音视频实时交互」模型,实现数字人实时视频聊天
http://t.cn/AXSTTg9z Wan-Streamer v0.1 是一个原生流式、端到端的全双工(双向)音视频实时交互多模态基础大模型。Wan-Streamer 内部没有外接任何ASR、TTS或视频生成模块,全部由同一个大模型在内部自主完成。在实际部署测试中,模型端的响应延迟仅为200ms左右,即使算上350ms的双向网络延迟,整体交互延迟也仅有550ms。这个效果确实很惊艳。可惜几乎没有透露任何技术细节,连模型大小都没说,相应的arxiv报告与其说是个技术报告,不如说是个产品介绍。
发布于 中国香港
