豆包大模型团队开源VideoWorld：无需语言模型也能认知世界| 科技讯

豆包大模型团队开源VideoWorld：无需语言模型也能认知世界

AI • 2025年2月10日 16:17:00 • AI

近日，豆包大模型团队携手北京交通大学、中国科学技术大学，共同推出了一款名为“VideoWorld”的视频生成实验模型，并宣布即日起面向公众开源。

VideoWorld在业界首次实现了无需依赖语言模型即可认知世界的创新突破。传统多模态模型如Sora、DALL-E、Midjourney等大多依赖语言或标签数据学习，但语言并不能全面捕捉真实世界的知识。而VideoWorld则摒弃了语言模型，通过纯视觉信号的学习，实现了统一执行理解和推理任务的能力。

该模型基于一种先进的潜在动态模型，能够高效压缩视频帧间的变化信息，从而大幅提升知识学习的效率和效果。更令人瞩目的是，在不依赖任何强化学习搜索或奖励函数机制的前提下，VideoWorld已经展现出了专业级的围棋水平，达到了5段9×9的标准，并能在多种环境中执行复杂的机器人任务。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/705620.html