
腾讯Robotics X实验室联合混元团队近日正式推出专为具身智能打造的基础模型HY-Embodied-0.5,旨在解决通用视觉语言模型因缺乏精细三维空间感知与物理交互能力、难以落地物理世界的行业痛点。此举标志着大模型认知链路正实质性延伸至机器人控制领域。
该系列模型并非通用基座的简单微调,而是从架构到训练范式的彻底重构。团队同步推出两款主力模型:MoT-2B(总参数4B,激活2B)主打端侧实时响应,MoE-32B(总参数407B,激活32B)追求极致推理性能。技术层面,团队首创视觉与语言模态非共享参数的混合Transformer架构,配合原生分辨率视觉编码器HY-ViT2.0与视觉潜在Token机制,有效避免了小模型在多模态训练中的灾难性遗忘。训练方面,依托超1亿条高质量具身专属数据,结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略,驱动模型思维链自主进化。
性能验证显示,MoT-2B在涵盖感知、推理、规划的22项权威评测中斩获16项最佳,超越Qwen3-VL-4B及RoboBrain2.5等同参数竞品;旗舰版MoE-A32B综合成绩亦能与Gemini3.0Pro等国际标杆抗衡。实机测试中,搭载该基座的机器人在打包、堆叠等任务上表现优于主流基线模型。这一进展为具身智能从虚拟仿真走向物理实操提供了高性能的底层基座支撑。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/749762.html