京东开源实时视频交互模型，让AI从“一问一答”走向“边看边说”

小科同学 • 3小时前 • AI

京东近日正式开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的交互式视觉模型与可部署系统，并获得vLLM-Omni的day-0原生支持。该模型标志着AI助手从传统的“被动响应”正式转向“边看边说”的自主观察模式。

区别于传统多模态大模型“上传视频—等待提问—给出回答”的回合制模式，JoyAI-VL-Interaction基于8B参数规模设计，可接入摄像头、直播流或监控画面，持续观察视频流并自主决策——是主动开口提示、保持沉默继续观察，还是将复杂推理任务委托给后台Agent。这种能力在安防预警、实时翻译、直播解说等时效敏感场景中尤为重要。

技术上的另一大亮点是“后台委托”机制。当模型遇到生成代码、复杂推理等高难度任务时，可将任务分流给后台Agent处理，前台模型继续观察现场，结果返回后再自然接回对话。这种“前台实时助手+后台智能大脑”的协作模式，让AI在执行复杂逻辑的同时仍能与用户保持无缝沟通。

在兼容性方面，该模型支持摄像头、直播流、监控流等多种视频输入，ASR、TTS、可视化界面、后台模型和外部工具均可按需替换。此次开源不仅放出模型权重，还包括超400万条时序对齐交互训练数据、完整训练方案及可一键启动的部署系统。

根据公布的盲评测试数据，在覆盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中，JoyAI-VL-Interaction对比豆包视频通话助手总体胜率达77.6%，对比Gemini视频通话助手达87.9%。该方案可广泛应用于安防监控、电商导购、AI眼镜等产业场景，为开发者提供了一套完整的技术基座。

原创文章，作者：小科同学，如若转载，请注明出处：https://www.kejixun.co/article/755801.html

AI JoyAI-VL-Interaction 京东

小科同学

0 0

AI

Meta暂停监控员工键盘鼠标的AI项目，因数据泄露致内部敏感信息外泄

据Business Insider报道，Meta公司已紧急叫停一项名为“模型能力计划（MCI）”的AI训练项目，该项目原本用于记录公司内部员工的键盘敲击和鼠标操作轨迹，以收集训练数…

李小白
4小时前
AI

亚马逊在ChatGPT打广告引流，却严防AI爬虫抓取自家数据

美国电商巨头亚马逊近日被曝已开始在ChatGPT平台投放广告，成为入驻OpenAI新兴广告业务中最具分量的零售企业。用户在使用ChatGPT搜索商品时，对话列表下方会直接出现亚马逊…

李森
7小时前
AI

刘强东称京东所有 AI 技术都会向海外各个国家所有伙伴开放

6月22日，据在今日举办的 2026 年 APEC 工商领导人中国论坛上，京东集团创始人、董事局主席刘强东宣布，从今天开始，京东所有的 AI 技术都会向海外各个国家所有的伙伴进行开…

李森
1天前
AI

Getty Images牵手OpenAI：图库内容将融入ChatGPT搜索体验

全球视觉内容巨头Getty Images日前宣布与OpenAI达成一项展示合作协议，标志着AI对话工具与正版视觉素材的融合再进一步。根据协议，Getty Images获得授权的海量…

AI
1天前
AI

纽约大学教授警告：AI泡沫破裂后果或超互联网泡沫

据外媒昨日报道，纽约大学金融学教授阿斯沃斯·达摩达兰发出严厉警告，称若当前AI行业泡沫破裂，其冲击可能比2000年前后的互联网泡沫更为严重。达摩达兰指出，AI热潮与当年互联网泡沫存…

泡沫大盗
2天前
AI

微信原生AI助手“小微”扩大灰度测试，一句话即可生成小程序

近日，微信原生AI助手“小微”开始扩大灰度测试范围，多个平台上陆续有用户反馈获得了体验资格。腾讯客服确认，“小微”目前仍处于测试阶段，支持通过文字或语音对话操作微信原生功能，例如调…

AI
2天前
新闻

亚马逊工程师因公开批评AI数据中心扩张遭内部调查

美国CNBC当地时间18日报道，多名亚马逊工程师因在公开场合批评公司AI数据中心迅速扩张并呼吁政府加强监管，随后遭到亚马逊内部调查，甚至面临解雇风险。本月早些时候，5名亚马逊员工在…

若安丶
3天前
AI

黄仁勋呼吁社会全面拥抱AI，类比汽车适应时代

当地时间6月17日，英伟达CEO黄仁勋在接受美联社采访时再度为人工智能热情发声，他呼吁社会必须主动改变，更积极、更广泛地拥抱AI，以改善人们的生活并加速经济增长与科学突破。面对AI…

若安丶
4天前
AI

OpenRouter推出Fusion API复合模型服务多模型协同兼顾性能与成本

近日，知名AI模型聚合平台OpenRouter推出一项名为Fusion API的复合型模型服务，通过多模型协同的方式为用户提供兼具性能表现与成本效益的解决方案。该服务并非依赖单一模…

小丸子
6天前
商业

DeepSeek完成逾70亿美元融资创始人梁文锋以特殊架构保持绝对控制权

据国外媒体报道，AI大模型独角兽DeepSeek（深度求索）日前以非常规交易架构顺利完成首轮逾70亿美元（约合500亿元人民币）融资，投后估值突破500亿美元大关。本轮融资的最大创…

商业头条
6天前
AI

豆包上线“任务模式”，从聊天助手向AI智能体进化

字节跳动旗下AI对话助手豆包近日正式推出“任务模式”入口，标志着这款产品正从单一的文本交互工具向具备复杂工作流处理能力的AI智能体演进。作为豆包功能拓展的重要一步，“任务模式”主打…

AI
2026年6月16日
AI

苹果或推AI智能体让Siri自主操作用户设备，古尔曼预测对标“OpenClaw”

彭博社知名记者马克·古尔曼近日预测，苹果公司最终可能推出一套能够代用户自主操作各类软件的智能体AI系统，直接对标业界关注的“OpenClaw”项目。古尔曼在其专栏《Power On…

Apple
2026年6月16日
AI

讯飞医疗发布星火大模型V3.5，AI医疗赛道迎来实用化转折

AI医疗行业的竞争逻辑正发生深刻变化。6月9日，讯飞医疗正式发布基于全国产算力底座训练的星火医疗大模型V3.5。与以往单纯追求参数规模的行业风向不同，这款新模型将目光锁定在临床诊疗…

AI
2026年6月15日
AI

高盛研报：市场低估AI需求，资本支出将远超预期

知名投行高盛近日发布行业研报指出，当前市场普遍低估了人工智能领域的发展需求，超大规模数据中心运营商的AI相关资本支出将大幅超出行业预期。数据显示，华尔街目前预估2027年相关资本支…

秋秋
2026年6月15日
新闻

谷歌CEO皮查伊斯坦福毕业演讲避谈AI，鼓励毕业生“选择乐观”

当地时间周日，谷歌首席执行官桑达尔·皮查伊在斯坦福大学毕业典礼上发表演讲。与近期其他科技领袖的毕业致辞不同，皮查伊对人工智能几乎只字未提，而是转而鼓励毕业生“选择乐观”。这一回避…

Google
2026年6月15日
新闻

Android安全负责人辞职，控诉谷歌“丧失道德底线”

据Business Insider周四报道，谷歌Android平台安全负责人、高级工程师René Mayrhofer已从公司离职。他在一封落款5月18日的内部告别信中直言，谷歌管理…

Android
2026年6月14日
商业

OpenAI收购云环境初创公司Ona，为编程助手Codex打造安全部署基石

OpenAI昨日宣布收购初创公司Ona，后者专注于为AI智能体提供安全、预配置的云环境。双方未披露交易金额，Ona团队将整体加入OpenAI并参与Codex项目研发。这项收购旨在帮…

野游栗
2026年6月12日
AI

阿里云发布Meoo CLI开源工具，一键打通本地AI编程到云端部署

针对本地AI编程项目上线繁琐的长期痛点，阿里云今日正式推出了一款名为Meoo（秒悟）的开源命令行工具Meoo CLI，旨在打通本地开发与云端部署之间的壁垒，帮助开发者快速将本地原型…

net
2026年6月12日
AI

塔塔咨询为5万员工部署Claude模型，加速企业级AI规模化落地

在人工智能深度赋能企业转型的浪潮中，科技咨询巨头塔塔咨询服务公司（TCS）日前宣布，已与AI厂商Anthropic达成全球战略合作伙伴关系，计划通过全面引入Claude大模型，加速…

AI
2026年6月12日
AI

OpenAI预计明年内上市，奥尔特曼称技术发展速度或影响IPO时机

据科技媒体The Information报道，萨姆·奥尔特曼在本周致员工的内部邮件中透露，OpenAI公司预计将在“明年内”上市，但具体时间表仍具有灵活性。此前，OpenAI已于6…

好奇宝宝
2026年6月11日

发表回复

登录后才能评论

京东开源实时视频交互模型，让AI从“一问一答”走向“边看边说”

相关推荐

发表回复