XuanyuanTechnologyReview
26-06-04 10:37

京东开源JoyAI-Echo长音视频生成框架
6月3日,京东正式推出JoyAI - Echo长音视频生成框架,该框架直击行业长视频生成三大难题(角色设定易崩坏、声音不稳定、生成速度缓慢),并实现了对话式编辑功能。京东官方称,JoyAI-Echo发布标志其在长视频生成领域跻身全球第一梯队。
JoyAI - Echo框架包含四项核心技术创新:其一,构建跨模态音视频记忆库,可在长视频中保持人物身份、形象与声音的一致性;其二,采用记忆驱动的后训练方式,结合多种技术,借助DMD技术实现约7.5倍的推理加速;其三,搭载Director Agent智能导演助理,用户通过自然语言提出需求后,系统可自动拆分任务,局部修改无需重新生成完整视频;其四,配备轻量化实时超分模块,支持分辨率提升,确保高清输出流畅不卡顿。
研究团队针对该框架构建了专门的评测集以评估其性能,实测结果显示,JoyAI - Echo在核心指标上处于行业领先水平,语音内容准确率较高。此外,用户偏好调研数据表明,多数用户认为该框架在音频质量、提示词遵循度及视觉美学方面表现更优。
目前,JoyAI - Echo的代码与权重已全部开源,项目页面及GitHub代码仓库均已上线,可供开发者与创作者体验及进行二次开发,其应用场景可覆盖多个领域。

发布于 北京