京东开源JoyAI-Echo长音视频生成框架6月3日，京东正式推出JoyAI - Echo长音视频生成框架，该框架直击行业长视频生成三大难题（角色设定易崩坏、声音不稳定、生成速度缓慢），并实现了对话式编辑功能。京东官方称，JoyAI-Echo发布标志其在长视频生成领域跻身全球第一梯队。JoyAI

京东开源JoyAI-Echo长音视频生成框架
6月3日，京东正式推出JoyAI - Echo长音视频生成框架，该框架直击行业长视频生成三大难题（角色设定易崩坏、声音不稳定、生成速度缓慢），并实现了对话式编辑功能。京东官方称，JoyAI-Echo发布标志其在长视频生成领域跻身全球第一梯队。
JoyAI - Echo框架包含四项核心技术创新：其一，构建跨模态音视频记忆库，可在长视频中保持人物身份、形象与声音的一致性；其二，采用记忆驱动的后训练方式，结合多种技术，借助DMD技术实现约7.5倍的推理加速；其三，搭载Director Agent智能导演助理，用户通过自然语言提出需求后，系统可自动拆分任务，局部修改无需重新生成完整视频；其四，配备轻量化实时超分模块，支持分辨率提升，确保高清输出流畅不卡顿。
研究团队针对该框架构建了专门的评测集以评估其性能，实测结果显示，JoyAI - Echo在核心指标上处于行业领先水平，语音内容准确率较高。此外，用户偏好调研数据表明，多数用户认为该框架在音频质量、提示词遵循度及视觉美学方面表现更优。
目前，JoyAI - Echo的代码与权重已全部开源，项目页面及GitHub代码仓库均已上线，可供开发者与创作者体验及进行二次开发，其应用场景可覆盖多个领域。

发布于北京