‌智元开源全球首个ViLLA架构具身智能模型 推动机器人技术平民化

‌智元开源全球首个ViLLA架构具身智能模型 推动机器人技术平民化

智元机器人近日宣布开源通用具身基座大模型GO-1(Genie Operator-1),这是全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型。此次开源旨在降低具身智能的技术门槛,让更多开发者能够参与这一前沿技术的应用与发展。该模型的发布紧随今年1月开源的AgiBot World具身智能百万真机数据集,标志着具身智能技术正加速走向开放共享。

GO-1模型的核心突破在于其创新的ViLLA架构,相比传统Vision-Language-Action(VLA)架构,通过引入隐式动作标记,成功实现了图像、文本输入与机器人动作的精准连接。该架构采用三层设计:基于InternVL-2B构建的VLM多模态理解层,可处理视觉、力觉和语言信息;Latent Planner隐式规划器能理解复杂任务;Action Expert动作专家则通过扩散模型生成高精度动作序列,确保机器人完成精细操作。这一技术突破使机器人能更准确理解人类意图,执行更复杂的操控任务。

为降低开发门槛,智元同步推出了Genie Studio开发平台,提供从数据采集到模型训练、仿真评测的全流程解决方案。平台集成GO-1模型,配备视频训练方案和统一框架,显著提升开发效率。值得注意的是,虽然GO-1基于AgiBot G1机器人数据预训练,但已在多种平台验证中展现出优异的可移植性,适应不同机器人需求。开发者现可通过GitHub仓库获取该模型,无论是AI专家还是技术爱好者,都能借助这一工具开启具身智能开发之旅。

原创文章,作者:泡沫大盗,如若转载,请注明出处:https://www.kejixun.co/article/734602.html

泡沫大盗的头像泡沫大盗认证作者

相关推荐

发表回复

登录后才能评论