網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

英偉達成美國大模型開源標桿：Nemotron 3連訓練配方都公開

2025-12-26 16:24:18　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

英偉達在開源模型上玩的很激進：

“最高效的開放模型家族”Nemotron 3，混合Mamba-Transformer MoE架構(gòu)、NVFP4低精度訓練全用上。

而且開放得很徹底：

不僅開放模型權(quán)重，還要把超過10萬億token的訓練數(shù)據(jù)、預(yù)訓練和后訓練軟件、訓練配方全部公開。

與其他開源模型相比性能有競爭力，且速度快1.5-3.3倍。

把Mamba和Transformer混著用

Nemotron 3在架構(gòu)層面追求推理效率的最大化。

傳統(tǒng)Transformer的自注意力機制需要對不斷增長的KV Cache做線性掃描，序列越長，計算開銷越大。

英偉達的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時只需要存儲固定大小的狀態(tài)，不受序列長度影響。

以Nano型號為例，整個模型主要由交替堆疊的Mamba-2層和MoE層構(gòu)成，自注意力層只保留了少數(shù)幾個。

論文給出的層排布模式是：5個Mamba-2+MoE的重復(fù)單元，接3個同樣結(jié)構(gòu)的單元，再來1個包含注意力層的單元，最后是4個Mamba-2+MoE單元。

在8k輸入、16k輸出的典型推理場景下，Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越長，優(yōu)勢越明顯。

與此同時，模型在長上下文任務(wù)上的表現(xiàn)并沒有打折扣。

論文展示了一組RULER基準測試的結(jié)果：在100萬token輸入長度下，Nemotron 3 Nano基座模型拿到了68.2分，而在同樣條件下訓練的Nemotron 2 Nano 12B只有23.43分，出現(xiàn)了斷崖式下跌。MoE混合架構(gòu)在長度外推上的魯棒性明顯更好。

LatentMoE：在潛空間里做專家路由

針對Super和Ultra這兩個更大的模型，英偉達提出了LatentMoE架構(gòu)，在潛在空間中進行專家計算。

MoE層在實際部署時會遇到兩類瓶頸：

低延遲場景下，每次只處理幾十到幾百個token，此時從顯存讀取專家權(quán)重成為主要開銷。

高吞吐場景下，一次處理數(shù)千token，此時專家間的all-to-all通信成為瓶頸。兩種情況下，開銷都與隱藏維度d線性相關(guān)。

LatentMoE的做法是：先把token從原始隱藏維度d投影到一個更小的潛在維度?（通常是d的四分之一），在這個低維空間里完成專家路由和計算，最后再投影回原始維度。

這樣一來，每個專家的權(quán)重加載量和通信量都降低了d/?倍。省下來的計算預(yù)算被用于增加專家數(shù)量和每個token激活的專家數(shù)。

標準MoE用128個專家、激活6個；LatentMoE用512個專家、激活22個。

兩者的總參數(shù)量和激活參數(shù)量幾乎相同（都是8B激活、73B總參），但LatentMoE在所有下游任務(wù)上都取得了更好的成績——MMLU-Pro從48.30提升到52.87，代碼任務(wù)從51.95提升到55.14，數(shù)學任務(wù)從78.32提升到80.19。

需要注意的是，路由門控網(wǎng)絡(luò)、共享專家計算以及非專家層仍然保留在原始維度，因為這些部分對瓶頸的貢獻很小。

用NVFP4訓練250億token

Super和Ultra還采用了NVFP4格式進行訓練，這是英偉達在低精度訓練上的又一次探索。

NVFP4是一種4位浮點格式，采用E2M1的元素格式（2位指數(shù)、1位尾數(shù)），配合16元素的微塊縮放和E4M3格式的塊縮放因子。在GB300上，F(xiàn)P4的峰值吞吐量是FP8的3倍。

論文顯示，團隊已經(jīng)用NVFP4格式穩(wěn)定訓練了高達25萬億token。與BF16訓練相比，Nano模型的損失差距控制在1%以內(nèi)，8B激活參數(shù)的更大模型差距進一步縮小到0.6%以內(nèi)。

在MMLU、GSM8K、HumanEval等下游任務(wù)上，NVFP4訓練的模型與BF16版本的準確率曲線幾乎完全重合。

不過并非所有層都適合量化到NVFP4。團隊發(fā)現(xiàn)Mamba輸出投影層在量化后會出現(xiàn)高達40%的flush-to-zero現(xiàn)象，因此保留在MXFP8精度；QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度；網(wǎng)絡(luò)最后15%的層也保持高精度以確保穩(wěn)定性。MTP層和潛在投影由于對推理時間影響很小，同樣保留在BF16。

多環(huán)境強化學習一把訓到底

Nemotron 3的后訓練采用了多環(huán)境強化學習，覆蓋數(shù)學推理、競賽編程、指令遵循、軟件工程、搜索、對話、通用工具使用、長上下文等多種任務(wù)。

與之前分階段訓練不同能力的做法不同，這次英偉達選擇同時訓練所有任務(wù)。

論文指出，這種同步訓練方式更穩(wěn)定，更不容易出現(xiàn)reward hacking，也避免了分階段訓練常見的能力退化問題。

AIME25數(shù)學分數(shù)從80提升到90，LiveCodeBench從65提升到72，τ2-Bench工具使用從40提升到50左右，全程呈穩(wěn)定上升趨勢。

高效的推理吞吐量在這里發(fā)揮了重要作用。

大規(guī)模RL需要生成海量rollout樣本，Nemotron 3的混合架構(gòu)相比其他開源模型有顯著優(yōu)勢。

團隊還采用了異步RL架構(gòu)來解耦訓練和推理，并利用多token預(yù)測加速rollout生成。訓練算法方面使用GRPO配合masked importance sampling來處理訓練策略和rollout策略之間的差異。

整個后訓練軟件棧以Apache 2.0協(xié)議開源，包括NeMo-RL（可擴展RL訓練）和NeMo-Gym（RL環(huán)境集合）兩個倉庫。

此外，Nemotron 3還支持推理時的思維預(yù)算控制。

用戶可以指定思維鏈的最大token數(shù)，當模型達到預(yù)算時，追加一個標記即可讓模型基于部分思維鏈生成最終回答。

論文給出了準確率與平均生成token數(shù)之間的權(quán)衡曲線，這為實際部署中的效率-精度平衡提供了細粒度控制。

論文地址：
https://arxiv.org/abs/2512.20856

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.