英伟达联合多所高校发布Gamma-World:多智能体世界模型突破单人视角瓶颈

英伟达联合多所高校发布Gamma-World:多智能体世界模型突破单人视角瓶颈

视频世界模型正迎来从单人视角向多人协作的底层变革。英伟达联合清华大学、多伦多大学及Vector Institute正式发布名为Gamma-World的全新多智能体世界模型方案,旨在解决多个玩家在同一虚拟世界中同时操作、互相观察的复杂场景建模难题。

多智能体世界建模的核心难点在于同时维护时间、跨视角及交互的三重一致性。以往研究在双人协同上虽有进展,却存在身份编码破坏对称性、注意力机制计算量随人数平方级暴涨等缺陷。Gamma-World从底层进行了重新设计:团队创新提出“正单纯形旋转智能体编码”,将所有玩家置于正单纯形顶点,实现等距且地位平等,无需改变架构即可从双人数据训练泛化至四人场景;同时引入“稀疏枢纽注意力机制”,用可学习的枢纽Token作为共享世界状态的压缩中转站,将计算成本降至线性复杂度,在缓存技术加持下实现每秒24帧的实时推演。

在训练层面,项目采用三阶段师生蒸馏法,将多步采样压缩为4步,缓解误差累积。实验显示,在多人Minecraft虚拟环境中,Gamma-World相比现有最强模型全面领先,评估视频质量的FVD指标平均降幅超过40%。该框架已成功迁移至真实双臂机器人协同任务。未来有望为多臂医疗协同、工厂多机器人调度及自动驾驶等物理AI领域提供大规模模拟生成基础设施。

原创文章,作者:小丸子,如若转载,请注明出处:https://www.kejixun.co/article/754089.html

小丸子的头像小丸子认证作者

相关推荐

发表回复

登录后才能评论