網易首頁 > 網易號 > 正文申請入駐

英偉達成開源新王？Nemotron 3全新混合專家架構，推理效率升4倍

2025-12-16 17:03:47　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

英偉達的自研大模型，剛剛有了大版本的更新。

北京時間今天凌晨，英偉達發布了 Nemotron 3 系列開放模型，共三種規模，分別為Nano、Super 和 Ultra

Nemotron 3 Nano：300 億參數規模的小模型，每次最多激活約 30 億參數，適用于高度定向、極致高效的任務。
Nemotron 3 Super：約 1000 億參數的高精度推理模型，每個 token 最多激活 100 億參數，面向多智能體應用。
Nemotron 3 Ultra：約 5000 億參數的大型推理引擎，每個 token 最多激活 500 億參數，適用于復雜 AI 應用場景。

其中 Nemotron 3 Nano 已在 Hugging Face 上線，是目前計算成本效率最高的模型，針對軟件調試、內容摘要、AI 助手工作流和信息檢索等任務進行了優化，可顯著降低推理成本。該模型采用獨特的混合 MoE 架構，在效率與可擴展性方面實現了顯著提升。

Nemotron 3 Nano 的總參數規模為 316 億，激活參數規模為 32 億（包含嵌入層為 36 億）。在每次前向推理過程中，其激活的參數數量不到上代 Nemotron 2 Nano 的一半，卻實現了更高的準確率。

與 Nemotron 2 Nano 相比，Nemotron 3 Nano 實現了最高 4 倍的 Token 吞吐量提升，并將推理階段生成的 Token 數量減少最高 60%，顯著降低推理成本。同時，100 萬 Token 的上下文窗口使 Nemotron 3 Nano 具備更強的長期記憶能力，在多步驟、長鏈路任務中表現更為準確。

對于另外兩款模型，Nemotron 3 Super 擅長需要大量協作智能體、且對低延遲要求極高的復雜任務；Nemotron 3 Ultra 則作為高級推理引擎，適用于深度研究與戰略規劃等高復雜度 AI 工作流。

斯坦福大學計算機科學副教授 Percy Liang 表示，這不僅僅是一個強大的開源模型。Nemotron 發布了訓練數據、強化學習環境和訓練代碼。這意義重大：幾乎所有模型開發者都只是希望人們使用他們的模型；而英偉達則讓用戶能夠創建自己的模型。

英偉達認為，隨著企業從單一模型聊天機器人轉向協同工作的多智能體 AI 系統，開發者正面臨通信開銷高、上下文漂移以及推理成本居高不下等挑戰。同時，能夠支撐復雜工作流自動化的模型，必須具備足夠的透明性與可解釋性，才能贏得開發者與企業的信任。

Nemotron 3 正是為應對這些問題而生，為構建專業級智能體 AI 提供所需的性能與開放性。

英偉達創始人兼首席執行官黃仁勛表示：「開放式創新是 AI 進步的基石。通過 Nemotron，我們正在將先進 AI 轉變為一個開放平臺，為開發者提供在規模化構建智能體系統時所需的透明性與效率。」

Nemotron 3 系列的首款模型 Nemotron 3 Nano（30B-3A）已于今日上線，Nemotron 3 Super 和 Ultra 預計將于 2026 年上半年正式推出。

技術介紹

Nemotron 3 系列模型的核心技術包括如下：

混合 MoE（Hybrid MoE）

Nemotron 3 系列模型采用 Mamba-Transformer 混合 MoE 架構。在實現業界領先吞吐率的同時，其準確率優于或不遜于傳統 Transformer 模型。

具體來說，傳統方法通常將 MoE 層與代價昂貴的自注意力層交替堆疊，而自注意力機制在生成過程中需要隨著序列變長，不斷擴展 KV Cache，其計算和存儲成本線性增長。

而 Nemotron 3 模型的核心改進是：大量采用 MoE 層與成本更低的 Mamba-2 層交替堆疊。Mamba-2 在生成時只需存儲固定大小的狀態（constant state），無需維護不斷擴張的 KV Cache。

因此，只有少量自注意力層會被保留用于特定功能。圖 1 展示了 Nemotron 3 Nano 的層級結構模式。

LatentMoE

Transformer 模型在不同部署場景下會遇到不同的性能瓶頸：低時延場景主要受限于內存帶寬，高吞吐場景則受限于 MoE 的 all-to-all 通信。為同時兼顧速度與模型質量，英偉達提出了 LatentMoE 架構。

LatentMoE 的核心做法是：先將 token 從原始隱藏維度投影到更小的潛在維度，在這個低維空間中進行專家路由和計算，再投影回原維度。這樣不僅減少了專家權重加載和通信成本，還能利用節省下的帶寬與參數，增加專家數量和每個 token 激活的專家數，提高模型表達能力。

多 Token 預測（Multi-Token Prediction, MTP）

MTP 已經成為一種顯著提升大語言模型準確率和推理效率的有效技術。已有研究包括 DeepSeek V3 以及最早提出 MTP 的工作表明：讓模型一次預測多個未來 token，不僅能夠提供更豐富的訓練信號，還能促使模型提前規劃多個推理步驟。

在 Nemotron 3 中引入 MTP 后，模型在驗證集損失以及多個下游任務中都獲得了穩定提升，包括通識知識、代碼生成、常識推理、閱讀理解和數學。

從系統層面看，MTP 僅引入極少量額外 FLOPs，并能無縫集成到訓練流程中，同時帶來可觀的 speculative decoding 加速收益，整體效率依然保持極高水平。

NVFP4 低精度訓練格式

英偉達在 NVFP4 數值格式下，成功實現了在 Mamba–MoE 混合架構上對最高 25 萬億（25T）tokens 的穩定且高精度的預訓練。模型的權重、激活值和梯度均被量化為 NVFP4，使得前向傳播、反向傳播中的梯度計算和權重更新都可以使用 NVFP4 GEMM 運算。在 GB300 芯片上，FP4 的峰值吞吐量是 FP8 的 3 倍。

超長上下文（Long Context）

Nemotron 3 系列模型被設計為支持最長 100 萬（1M）token 的上下文長度，以滿足大規模、多輪、具備 Agentic 推理的應用需求。

在傳統 Transformer 中，旋轉位置編碼（RoPE）是擴展上下文長度的主要瓶頸，因為 RoPE 在超過訓練長度時會出現明顯的分布外退化問題。而 Nemotron 3 使用的 Mamba 層天然具備隱式位置信息，因此模型在注意力層中完全不使用 RoPE，從而避免了 RoPE 帶來的上下文擴展限制。

除了上述關鍵技術之外，Nemotron 3 系列模型還引入了兩項面向實用性的核心能力，進一步增強了模型在真實世界應用中的可靠性、靈活性與泛化表現。

多環境強化學習后訓練（Multi-environment RL Post-training）：Nemotron 3 模型在后訓練階段使用多種強化學習環境進行訓練，使模型在廣泛任務范圍內實現更高的準確性與泛化能力。

推理階段精細化推理預算控制：Nemotron 3 模型在訓練時即支持推理階段的計算 / 推理預算精細控制，可在實際部署中根據任務復雜度靈活權衡推理深度、性能與成本。

更多技術細節請參閱技術報告：

論文地址：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf
論文標題：NVIDIA Nemotron 3: Efficient and Open Intelligence

有趣的是，Nemotron 3 貢獻者名單長達 2 頁多，參與人數之龐大在開源模型中也是少見，足見這一系列模型背后投入的研發規模與工程復雜度。

Nemotron 3 表現

如下圖所示，在覆蓋多個類別的主流基準測試中，Nemotron 3 Nano-30B-A3B 的準確率優于 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507。

在單張 H200、8K 輸入 / 16K 輸出配置下，Nemotron 3 Nano 的推理吞吐量是 Qwen3-30B-A3B 的 3.3 倍，是 GPT-OSS-20B 的 2.2 倍。

支持最長達 100 萬 Token 的上下文長度，并且在不同上下文長度下的 RULER 基準測試中，性能均優于 GPT-OSS-20B 和 Qwen3-30B-A3B-Instruct-2507。

另外，獨立 AI 基準評測機構 Artificial Analysis 將 Nemotron 3 Nano 評為同規模模型中最開放、最高效的模型之一，并具備領先的準確率。

目前，Nemotron 3 Nano 的多種型號模型、數據、模型配方均已開源。

得益于采用了 NVIDIA Blackwell 架構上的超高效 4-bit NVFP4 訓練格式，Nemotron 3 Super 和 Ultra 可以大幅降低內存需求并加快訓練速度，使得在現有基礎設施上訓練更大規模模型成為可能，同時在準確性上不遜于更高精度格式。

通過 Nemotron 3 模型家族，開發者可以根據具體工作負載選擇最合適的開放模型，在從數十到數百個智能體的規模下靈活擴展，同時獲得更快、更精準的長程推理能力。

面向智能體定制的全新開放工具與數據

英偉達同步發布了一整套訓練數據集與先進的強化學習庫，面向所有構建專業化 AI 智能體的開發者開放。

其中，囊括 3 萬億 Token 的全新 Nemotron 預訓練、后訓練及強化學習數據集，涵蓋豐富的推理、編程和多步驟工作流示例，可用于打造高度專業化的領域智能體。

Nemotron 智能體安全數據集（Agentic Safety Dataset）提供真實世界的遙測數據，幫助團隊評估并強化復雜智能體系統的安全性。

更多數據集請參閱：https://huggingface.co/nvidia

為了加速開發，英偉達還開源了 NeMo Gym 與 NeMo RL 庫，提供 Nemotron 模型所需的訓練環境和后訓練基礎，并推出 NeMo Evaluator 用于驗證模型的安全性與性能。所有工具和數據集現已在 GitHub 和 Hugging Face 上開放。

目前，Nemotron 3 已獲得 LM Studio、llama.cpp、SGLang 和 vLLM 的支持。此外，Prime Intellect 與 Unsloth 正將 NeMo Gym 的即用型訓練環境直接集成到其工作流中，使團隊能夠更便捷地開展強化學習訓練。

https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models

https://research.nvidia.com/labs/nemotron/Nemotron-3/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.