
近日,自变量机器人团队正式发布了全球首个基于“事件级预测”的具身智能世界模型WALL-WM。这一创新架构打破了传统模型逐帧机械学习动作的局限,将世界模型的预测单位切换为语义事件,标志着机器人理解与执行任务的能力实现了质的飞跃。
当前主流的视觉-语言-动作模型普遍采用给定画面与指令后逐帧预测动作块的模式,这种填空式训练往往使机器人只记住微小物理挪动,却忽略了动作的最终目标。一旦场景稍有变化,如更换杯子或桌子,机器人极易因泛化能力不足而失败。自变量团队在论文中指出,文本、视觉与动作信息在真实世界中具有不同的时间尺度和几何流形,强行在单一空间内对齐会损害预训练先验。
针对这一痛点,WALL-WM引入“以事件为中心”的机制,将复杂任务切分为伸手、抓取、移位等具有明确语义的事件关节。模型不再死板推算下一帧画面,而是先对“下一个事件会导致世界发生何种变化”进行超前预演,再将视觉变化精准转化为机械臂运动轨迹。该系统支持在同一个基座权重下灵活切换变长动作输出与实时闭环控制,并通过视频模型与动作模型的单向耦合分工生长,避免互联网视频的动态先验被动作数据过早带偏。针对多摄像头几何感知,模型引入视锥掩码与管状掩码,强迫AI建立跨视角的三维几何对应能力;全新的“阶梯式思维链解码”技术则大幅降低了决策延迟。
在数据工程方面,团队构建了“数据金字塔”,底层依托百万级网络视频补足视觉先验,顶层聚焦真机接管与纠错数据,配合四级层级化标注、双聚类采样、分布式“Muon”训练系统以及FP8量化,使得WALL-WM在具身视频生成质量和三维空间感知等多项指标上全面领跑,并在Core15L1基准测试的泛化场景中取得优秀任务完成分数。目前,该项目的开源代码及主页已正式公开。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/753909.html