英伟达推出Nemotron 3 Nano Omni全模态模型，吞吐量最高提升9.2倍

AI • 2小时前 • AI

当地时间4月28日，英伟达正式发布名为Nemotron 3 Nano Omni的开源全模态推理模型，旨在为企业级AI Agent提供一体化基础模型底座。该模型基于30B?A3B混合专家（MoE）架构，可根据任务和模态动态激活，实现了高吞吐量与可扩展的多模态性能。

与传统方案中碎片化的视觉-语音-语言模型链不同，Nemotron 3 Nano Omni将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中，从而减少推理跳数与编排复杂度，显著降低推理成本，同时增强跨模态上下文一致性。在固定交互延迟阈值下，该模型在视频推理任务中的有效系统容量相比其他开放式全模态模型最高提升约9.2倍，在多文档推理任务中最高提升约7.4倍。

这款模型可在智能体系统中充当多模态感知与上下文子Agent，使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入。在文档智能榜单MMlongbench-Doc和OCRBenchV2上，它取得了同类领先的准确率，在视频与音频理解基准WorldSense、DailyOmni、VoiceBench中也表现优异。架构设计上，Nemotron 3 Nano Omni结合了Mamba层（提升序列与内存效率）和Transformer层（实现精准推理），内存和计算效率最高可提升4倍。视觉处理采用3D卷积捕捉帧间运动，音频部分基于NVIDIA Parakeet编码器，文本部分则以强大的文本模型作为中心解码器。

目前，该模型的权重已在Hugging Face上提供，并即将作为NVIDIA NIM微服务上线，开发者可自由定制、部署和集成多模态子Agent。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/751488.html

AI认证作者

0 0

AI

Kimi K3被曝第三季度亮相，参数量达2.5万亿挑战国产大模型天花板

国产AI大模型的竞争正进入白热化阶段。在DeepSeek V4引发市场热议后，月之暗面旗下的下一代大模型Kimi K3也传出了最新进展。据相关消息透露，Kimi K3预计将于今年第…

泡沫大盗
27分钟前
AI

AI音乐涌入Apple Music，播放量却不足0.5%

据科技媒体Appleinsider报道，苹果Apple Music副总裁Oliver Schusser最近透露，虽然AI生成的音乐已占据新提交曲目的很大比例，但实际播放量几乎可以忽…

Apple
3天前
AI

谷歌称75%新代码由AI生成，工程师转向审核角色

据《商业内幕》报道，谷歌当地时间周三披露，目前公司内部新编写的代码中已有四分之三由AI生成，随后再交由人类工程师审核。这一比例近年来持续攀升——截至2024年10月，该数字约为四分…

Google
5天前
AI

千问AI PPT重大升级：1-3分钟自动生成完整演示文稿

昨日下午，千问AI PPT宣布完成“PPT Agent”重大升级。通过采用全新的智能体架构，该工具成功实现了从内容构思、素材检索到视觉排版的全流程自动化，标志着AI在办公自动化领域…

AI
6天前
AI

践行AI for Process理念：神州数码“养虾三件套”开启企业级Agent落地新纪元

站在2026年的时间节点回望，如果说两年前的大模型热潮是一场关于“参数与对话”的集体狂欢，那么今天，这场狂欢已然进入了冷静且残酷的“深水区”。行业内出现了一个生动且带有几分极客色彩…

马会林
6天前
AI

苹果硬件部门迎来AI重组，特努斯缩短产品开发周期

据彭博社报道，在接棒掌舵苹果公司之前，约翰·特努斯已着手推动内部改革，开始利用人工智能重塑公司运营。据悉，特努斯正将AI深度融入公司体系，并于本月初重组硬件工程部门，核心是引入一套…

Apple
6天前
新闻

英伟达 DLSS 4.5 SDK 发布，支持将动态多帧生成、光线重构等新技术接入游戏

4月22日，据报道，英伟达现已发布 DLSS 4.5 SDK，让开发者能够在游戏中整合动态多帧生成等新技术。随着 DLSS 4.5 Streamline SDK 发布，开发者现在可…

马会林
2026年4月22日
新闻

AI教父杨立昆公开反驳Anthropic CEO：别信AI引发大规模失业的“恐慌营销”

近日，一场关于AI是否会引发大规模失业的激烈交锋在社交平台X上展开。刚刚离开Meta并创立AMI Labs的“AI教父”杨立昆，公开对呛Anthropic首席执行官Dario Am…

happy
2026年4月20日
新闻

网页部署平台Vercel遭黑客入侵，第三方AI工具成攻击突破口

知名网页应用托管与开发平台Vercel近日证实遭遇一起安全入侵事件。一名自称是近期入侵Rockstar Games的幕后组织ShinyHunters成员的黑客，已在网上发布了部分窃…

小丸子
2026年4月20日
AI

Anthropic CEO：AI发展永无止境，未来五年或取代半数初级白领岗位

据科技媒体The Decoder报道，人工智能公司Anthropic的CEO达里奥·阿莫迪（Dario Amodei）近日在接受采访时表示，AI的发展仍存在巨大空间，如同彩虹一般没…

AI
2026年4月19日
商业

AI芯片制造商Cerebras启动美股IPO，挑战英伟达

据路透社报道，人工智能芯片制造商Cerebras Systems已于近日向美国证券交易委员会提交首次公开募股申请，计划在纳斯达克上市，股票代码拟定为“CBRS”。这家立志挑战AI芯…

商业头条
2026年4月19日
AI

联想开天发布天禧AI Pro，全系PC升级信创AI PC

联想开天今日正式发布新一代AI智能体天禧AI Pro，定位“更可信的政企办公AI搭档”，并宣布旗下全线PC产品即日起全面升级为信创AI PC，标志着信创行业正式迈入AI时代。在交…

小科同学
2026年4月18日
AI

谷歌向AI智能体开放Android开发指南

如今，任何人只要掌握提示词能力，就能成为Vibe Coding（氛围编程）开发者。ChatGPT、Claude、Gemini等工具甚至可以直接将一个点子转化为完整应用并发布到商店。…

Google
2026年4月18日
AI

Gucci携手谷歌2027年推智能眼镜，首个进入AI眼镜领域的奢侈品牌

据路透社4月17日凌晨报道，Gucci母公司开云集团CEO卢卡·德·梅奥表示，计划与谷歌合作推出Gucci品牌的智能眼镜，预计于2027年正式发布。这一举措有望使开云成为首个进入A…

李森
2026年4月17日
AI

OpenAI Codex升级：可操控Mac桌面应用，支持多智能体并行与长期任务

OpenAI公司于4月17日对旗下Codex AI编程助手进行了一次重大更新，其中最引人注目的变化是赋予了Codex操作Mac桌面应用的能力。现在，Codex拥有独立光标，能够查看…

AI
2026年4月17日
AI

波士顿动力Spot机器人获谷歌AI加持，可自主识别泄漏与爆炸风险

波士顿动力公司近日宣布，其四足机器人“Spot”已成功集成谷歌DeepMind开发的先进AI模型——Gemini Robotics-ER1.6，这一技术升级显著提升了机器人在工业检…

校草
2026年4月17日
AI

Adobe推出Firefly AI助手：跨应用自主编排，加速创意落地

Adobe于4月15日宣布推出Firefly AI Assistant，这是一款具备自主决策能力的智能体工具，定位为能够独立执行复杂任务的创作助手。与传统指令响应式AI不同，该智能…

秋秋
2026年4月16日
AI

Midjourney推出V8.1 Alpha版本：高清渲染速度提升3倍，成本降低3倍

近日，全球领先的AI图像生成平台Midjourney正式发布V8.1 Alpha版本。此次更新在V8基础上实现了显著优化，不仅大幅提升了生成效率与性价比，还恢复并增强了多项核心功能…

聆听
2026年4月16日
AI

阿里巴巴推出AI开发工具Meoo：零代码一分钟生成网站

阿里巴巴旗下ATH事业群近日正式发布了一款全新的AI开发工具——Meoo（中文名“秒悟”）。该工具集成了千问、Kimi、GLM和MiniMax四大国内顶尖AI模型，旨在让没有任何编…

AI
2026年4月16日
AI

微软推出低成本高效文生图模型MAI-Image-2-Efficient，成本降低41%

本月初刚公布一系列自研AI模型的微软，如今又推出了MAI-Image-2-Efficient。这款模型是其旗舰级文本生成图像模型的低成本、高速版本，微软表示以近一半的价格即可提供可…

李小白
2026年4月15日

发表回复

登录后才能评论

英伟达推出Nemotron 3 Nano Omni全模态模型，吞吐量最高提升9.2倍

相关推荐

发表回复