
小米近日正式发布并开源业界首个打通自动驾驶与具身智能的跨域基座模型MiMo-Embodied,模型与权重已同步上线Hugging Face与arXiv平台。该模型通过统一参数架构,首次实现室内交互与道路决策的协同建模,为跨场景智能融合提供新范式。
技术层面,MiMo-Embodied具备三大核心优势:其一,跨域能力覆盖,同一套参数同时支持具身智能的可供性推理、任务规划、空间理解,以及自动驾驶的环境感知、状态预测和驾驶规划;其二,双向协同赋能,验证了室内交互与道路决策能力的知识迁移效应,例如将自动驾驶的环境感知技术迁移至扫地机器人的障碍识别;其三,全链优化可靠,采用多阶段训练策略,结合CoT推理增强与RL精细强化,显著提升真实场景部署的稳定性。
在29项核心基准测试中,该模型全面领先现有开源、闭源及专用方案:具身智能领域17项任务达到SOTA(State-of-the-art),自动驾驶领域12项任务刷新最佳成绩,并展现出优异的通用视觉语言泛化能力。小米计划于2026年Q1通过OTA将模型应用于自研扫地机器人、工厂AGV及SU7高阶智驾,同时开放API接口,为家居、移动出行和制造业开发者提供跨域智能底座支持。
原创文章,作者:XIAOMI,如若转载,请注明出处:https://www.kejixun.co/article/739319.html