芯片设计巨头英伟达3月11日发布新一代大型Nemotron 3 Super,该模型针对快速发展的AI代理应用进行专门优化,据称可为AI代理系统带来最高5倍的计算输送给量,推理效率大幅提升。

据官网披露,Nemotron 3 Super总参数量达1200亿,但其核心技术采用混合专家架构(MoE),在实际推理过程中仅需激活120亿个参数。这种“大容量、低能耗”的设计使模型能够在不大幅增加计算负担的前提下,支撑复杂场景下多个AI代理的协同工作,例如软件开发、安全评估等。
过去,多步骤AI代理在生成解决方案时,需要不断传递完整历史对话,所需词元量往往是普通聊天的15倍,导致成本飙升并容易出现目标偏移;而如果每个子任务都调用巨型模型,过慢的速度又难以落地。
为突破上述瓶颈,Nemotron 3 Super引入了创新的混合架构层,结合Mamba与Transformer两种结构:Mamba层通过高效序列计算,使模型可在百万词元的上下文中保持高速处理;Transformer层则擅长复杂推理与语言理解。此外,模型还采用潜在混合专家架构(Latent MoE),以激活一个专家的成本实际激活四个专家,提升下一词元的预测质量。
英伟达已同步开放Nemotron 3 Super的模型权重,并提供宽松授权供企业及研究机构自由部署与定制。该模型在英伟达Blackwell平台上运行更快。