豆包大模型团队开源VideoWorld:无需语言模型也能认知世界

豆包大模型团队开源VideoWorld:无需语言模型也能认知世界

近日,豆包大模型团队携手北京交通大学、中国科学技术大学,共同推出了一款名为“VideoWorld”的视频生成实验模型,并宣布即日起面向公众开源。

VideoWorld在业界首次实现了无需依赖语言模型即可认知世界的创新突破。传统多模态模型如Sora、DALL-E、Midjourney等大多依赖语言或标签数据学习,但语言并不能全面捕捉真实世界的知识。而VideoWorld则摒弃了语言模型,通过纯视觉信号的学习,实现了统一执行理解和推理任务的能力。

该模型基于一种先进的潜在动态模型,能够高效压缩视频帧间的变化信息,从而大幅提升知识学习的效率和效果。更令人瞩目的是,在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld已经展现出了专业级的围棋水平,达到了5段9×9的标准,并能在多种环境中执行复杂的机器人任务。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/705620.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论