京东开源JoyAI-VL-Interaction,把视频AI从「你问我答」的轮次对话,推进到「持续在场、主动开口、按时机说话」的流式交互新范式。
世界杯决赛最后一秒,球进了。
你身边那个号称能「看懂视频」的AI,还在安静地等你开口问一句「刚才发生了什么?」。
这就是今天几乎所有视频AI的样子——不管包装得多酷炫,骨子里都是同一个逻辑:你问,它答。
可真实世界里最需要AI出声的那些瞬间,从来不会等人提问——解说员不会等导播发话才开口喊「Goal」。
这些场景要的不是「问答」,而是一双全程在线、自己拿主意什么时候该说话的眼睛。
现在,京东把这双「眼睛」开源了,它叫JoyAI-VL-Interaction。
代码:
http://t.cn/AXStyvUJ
模型:
http://t.cn/AXStyvUM
数据集:
http://t.cn/AXStyvUx
技术报告:
http://t.cn/AXScGBGT
