京东开源实时视频模型

【京东开源实时视频视觉语言交互模型JoyAI-VL-Interaction】

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，并获得vLLM-Omni的day-0原生支持。该模型让大模型从“一问一答”走向“边看边说”，支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。

关键信息：相比传统模型，JoyAI-VL-Interaction有三重突破——主动判断而非被动回答、实时响应而非事后总结、适时智能体委托同时保持观察和交互。在58个真人盲评案例中，对比豆包和Gemini的视频通话助手，总体胜率分别达77.6%和87.9%。ASR、TTS、可视化界面、后台模型、外部工具和业务模块均可按需替换。

观察：京东将AI视觉交互能力全栈开源，让开发者能快速搭建安防监控、老人看护、直播讲解、AI眼镜等实时助手。当模型学会“边看边说”，AI正从被动应答走向主动观察与判断的新阶段。

#京东 #JoyAI-VL-Interaction #开源模型 #多模态AI #实时视频交互

发布于北京