
Meta公司于5月28日发布革命性多模态大模型Multi-SpatialMLLM,通过整合深度感知、视觉对应和动态感知三大核心组件,成功突破传统单帧图像分析的局限性。该模型由Meta FAIR团队联合香港中文大学开发,旨在解决机器人和自动驾驶等领域对复杂空间理解的迫切需求——此前主流模型在基础空间推理中错误率居高不下,甚至难以区分左右方位。
研究团队创新性地构建了包含2700万样本的MultiSPA数据集,融合Aria Digital Twin、Panoptic Studio等高精度3D/4D场景数据,并借助GPT-4o生成多样化任务模板。通过深度感知、相机移动感知等五项专项训练,模型在多帧动态推理中的表现显著提升。测试数据显示,其在MultiSPA基准测试中准确率较基线模型平均提升36%,高难度相机移动向量预测任务亦达到18%的准确率,远超传统方法的随机猜测水平。
更令人瞩目的是,该模型在BLINK基准测试中以接近90%的准确率超越专有系统,同时保持标准视觉问答(VQA)任务的原有性能,证明其通用性未受空间专项训练的削弱。这一突破标志着多模态大模型从静态理解迈向动态场景认知的关键转折,为智能设备在真实环境中的交互提供了全新可能。随着技术迭代,Meta或将借此巩固其在AI硬件生态的领先地位,特别是在即将发布的Hypernova智能眼镜等终端产品中实现落地应用。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/721549.html