据悉,谷歌DeepMind最新发布Genie 3,这是目前最先进的世界模型之一。Genie 3能够通过文本实时生成完全互动且高度一致的动态世界,用户可以以每秒24帧、720p分辨率进行实时探索。该模型是通向通用人工智能(AGI)的关键一步,能让AI智能体在丰富的模拟环境中训练。

Genie 3由DeepMind的Veo 2和Genie 2项目合作完成,具有多项突破性特性。它能够保留长达一分钟的空间记忆,例如角色在墙上刷漆后移动,返回时漆迹仍在。此外,物理规律成为模型的自然产物,随着训练数据规模和深度的提升,物理效果表现更加真实,如水的模拟和光照变化。
Genie 3在模拟现实世界的能力上有巨大飞跃,其生成的视频内容真假难辨。模型通过大规模数据训练,涌现出符合人类直觉的行为,如角色靠近门时会推测打开门,下水会游泳或溅起水花。这些行为是模型自主学习的结果,而非专门设计。
未来,DeepMind将继续提升Genie系列的真实感和交互性,目标是让模型产生更广泛的影响。Genie 3最终将开放给其他团队,用于创造更多应用场景,如个人游戏世界、强化学习智能体训练和机器人研究等。
原创文章,作者:科技探索者,如若转载,请注明出处:https://www.kejixun.co/article/731377.html