爱范儿
26-06-23 15:22 微博认证:爱范儿官方微博

【京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction】

昨天,京东宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction。官方称,这是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction 支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。京东称,开发者可替换 ASR、TTS、后台模型、外部工具和业务模块,把它改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜或无障碍辅助等实时 AI 助手。

官方数据显示,在 58 个真人盲评案例中,JoyAI-VL-Interaction 对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。

💻 GitHub: github.com/jd-opensource/JoyAI-VL-Interaction
🤗 Hugging Face: huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview