
当地时间4月28日,英伟达正式发布名为Nemotron 3 Nano Omni的开源全模态推理模型,旨在为企业级AI Agent提供一体化基础模型底座。该模型基于30B?A3B混合专家(MoE)架构,可根据任务和模态动态激活,实现了高吞吐量与可扩展的多模态性能。
与传统方案中碎片化的视觉-语音-语言模型链不同,Nemotron 3 Nano Omni将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中,从而减少推理跳数与编排复杂度,显著降低推理成本,同时增强跨模态上下文一致性。在固定交互延迟阈值下,该模型在视频推理任务中的有效系统容量相比其他开放式全模态模型最高提升约9.2倍,在多文档推理任务中最高提升约7.4倍。
这款模型可在智能体系统中充当多模态感知与上下文子Agent,使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入。在文档智能榜单MMlongbench-Doc和OCRBenchV2上,它取得了同类领先的准确率,在视频与音频理解基准WorldSense、DailyOmni、VoiceBench中也表现优异。架构设计上,Nemotron 3 Nano Omni结合了Mamba层(提升序列与内存效率)和Transformer层(实现精准推理),内存和计算效率最高可提升4倍。视觉处理采用3D卷积捕捉帧间运动,音频部分基于NVIDIA Parakeet编码器,文本部分则以强大的文本模型作为中心解码器。
目前,该模型的权重已在Hugging Face上提供,并即将作为NVIDIA NIM微服务上线,开发者可自由定制、部署和集成多模态子Agent。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/751488.html