何玺
26-06-22 17:16 微博认证:乐淘乐购网站创始人,艾瑞网专栏作者何玺 微博原创视频博主 头条文章作者

【京东开源实时视频视觉语言交互模型JoyAI-VL-Interaction】

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,并获得vLLM-Omni的day-0原生支持。该模型让大模型从“一问一答”走向“边看边说”,支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。

关键信息:相比传统模型,JoyAI-VL-Interaction有三重突破——主动判断而非被动回答、实时响应而非事后总结、适时智能体委托同时保持观察和交互。在58个真人盲评案例中,对比豆包和Gemini的视频通话助手,总体胜率分别达77.6%和87.9%。ASR、TTS、可视化界面、后台模型、外部工具和业务模块均可按需替换。

观察:京东将AI视觉交互能力全栈开源,让开发者能快速搭建安防监控、老人看护、直播讲解、AI眼镜等实时助手。当模型学会“边看边说”,AI正从被动应答走向主动观察与判断的新阶段。

#京东 #JoyAI-VL-Interaction #开源模型 #多模态AI #实时视频交互

发布于 北京