Google DeepMind突破AI视觉瓶颈,D4RT实现动态世界四维感知

Google DeepMind突破AI视觉瓶颈,D4RT实现动态世界四维感知

长久以来,如何让机器像人类一样理解动态世界,始终是计算机视觉领域的核心挑战。如今,Google DeepMind宣布推出全新统一模型D4RT(动态四维重建与追踪),通过将三维空间与时间维度融合,正式推动AI视觉进入“四维全感知”时代。

传统方法依赖多个模型分别处理深度、动作和视角,效率低下且认知割裂。D4RT创新采用“查询式”架构,将复杂任务简化为直接定位像素在特定时间和视角下的空间坐标,实现了从分散分析到整体建模的跨越。性能测试显示,该模型运行速度比以往技术快18至300倍,解析一分钟视频仅需5秒,首次使AI具备实时构建四维场景的潜力。

此外,D4RT能够全时空追踪像素,即使物体被遮挡或移出视野,也可预测其运动轨迹;同时支持瞬时生成精确3D场景结构,并自适应还原相机运动路径。这一突破将直接推动机器人导航、增强现实及通用人工智能等领域的进展,让AI得以深入理解流动变化的现实环境。这不仅是一次技术升级,更为机器感知世界的方式开启了全新维度。

原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.co/article/744181.html

Google的头像Google认证作者

相关推荐

发表回复

登录后才能评论