
京东近日正式开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的交互式视觉模型与可部署系统,并获得vLLM-Omni的day-0原生支持。该模型标志着AI助手从传统的“被动响应”正式转向“边看边说”的自主观察模式。
区别于传统多模态大模型“上传视频—等待提问—给出回答”的回合制模式,JoyAI-VL-Interaction基于8B参数规模设计,可接入摄像头、直播流或监控画面,持续观察视频流并自主决策——是主动开口提示、保持沉默继续观察,还是将复杂推理任务委托给后台Agent。这种能力在安防预警、实时翻译、直播解说等时效敏感场景中尤为重要。
技术上的另一大亮点是“后台委托”机制。当模型遇到生成代码、复杂推理等高难度任务时,可将任务分流给后台Agent处理,前台模型继续观察现场,结果返回后再自然接回对话。这种“前台实时助手+后台智能大脑”的协作模式,让AI在执行复杂逻辑的同时仍能与用户保持无缝沟通。
在兼容性方面,该模型支持摄像头、直播流、监控流等多种视频输入,ASR、TTS、可视化界面、后台模型和外部工具均可按需替换。此次开源不仅放出模型权重,还包括超400万条时序对齐交互训练数据、完整训练方案及可一键启动的部署系统。
根据公布的盲评测试数据,在覆盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中,JoyAI-VL-Interaction对比豆包视频通话助手总体胜率达77.6%,对比Gemini视频通话助手达87.9%。该方案可广泛应用于安防监控、电商导购、AI眼镜等产业场景,为开发者提供了一套完整的技术基座。
原创文章,作者:小科同学,如若转载,请注明出处:https://www.kejixun.co/article/755801.html