当大多数AI Agent系统还在用多个独立模型分别处理视觉、语音和语言时,NVIDIA直接把它们捏成了一个。4月28日,NVIDIA正式发布Nemotron 3 Nano Omni,这是一款开源的多模态统一模型,基于30B-A3B混合MoE架构,在单一系统内整合了视觉、音频和语言的感知与推理能力。效率是Nemotron 3 Nano Omni最核心的命题。当前Agent系统的典型做法是:为每种模态部署独立模型,推理时数据在多个模型之间来回传递,既增加了延迟,也容易丢失跨模态的上下文关联。NVIDIA用MoE架构将视觉编码器和音频编码器内嵌进同一个模型,用一次前向传播替代过去需要多次调用才能完成的多模态感知。官方数据显示,相比其他开源全模态模型,Nemotron 3 Nano Omni实现了9倍更高的吞吐量,同时保持了同等的交互响应速度。更值得关注的是它的原生高分辨率处理能力。H Company基于该模型构建的电脑使用Agent,使用1920×1080像素的原生输入分辨率进行视觉推理,在OSWorld基准测试中展现出对复杂图形界面的显著理解能力提升。Nemotron 3 Nano Omni在文档智能、音视频理解等6个基准测试leaderboard上位居榜首。模型以开源权重、开源数据集、开源训练技术的方式发布,这意味着整个社区可以验证、复现和定制。NVIDIA将Nemotron 3系列定位为一套完整的基础模型家族:Nano负责多模态感知、Super负责高频执行、Ultra负责复杂规划,三者可以协同工作组成完整的Agent工作流。Nemotron 3 Nano Omni的价值不只是又快又准,而是它代表了一种思路转变:过去我们用模型拼接来解决多模态问题,现在NVIDIA想用模型统一来彻底绕过这个工程债务。