Google DeepMind突破AI视觉瓶颈，D4RT实现动态世界四维感知| 科技讯

Google DeepMind突破AI视觉瓶颈，D4RT实现动态世界四维感知

Google • 2026年1月25日 11:17:00 • AI

长久以来，如何让机器像人类一样理解动态世界，始终是计算机视觉领域的核心挑战。如今，Google DeepMind宣布推出全新统一模型D4RT（动态四维重建与追踪），通过将三维空间与时间维度融合，正式推动AI视觉进入“四维全感知”时代。

传统方法依赖多个模型分别处理深度、动作和视角，效率低下且认知割裂。D4RT创新采用“查询式”架构，将复杂任务简化为直接定位像素在特定时间和视角下的空间坐标，实现了从分散分析到整体建模的跨越。性能测试显示，该模型运行速度比以往技术快18至300倍，解析一分钟视频仅需5秒，首次使AI具备实时构建四维场景的潜力。

此外，D4RT能够全时空追踪像素，即使物体被遮挡或移出视野，也可预测其运动轨迹；同时支持瞬时生成精确3D场景结构，并自适应还原相机运动路径。这一突破将直接推动机器人导航、增强现实及通用人工智能等领域的进展，让AI得以深入理解流动变化的现实环境。这不仅是一次技术升级，更为机器感知世界的方式开启了全新维度。

原创文章，作者：Google，如若转载，请注明出处：https://www.kejixun.co/article/744181.html