夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
英偉達在開源模型上玩的很激進:
“最高效的開放模型家族”Nemotron 3,混合Mamba-Transformer MoE架構(gòu)、NVFP4低精度訓練全用上。
![]()
而且開放得很徹底:
不僅開放模型權(quán)重,還要把超過10萬億token的訓練數(shù)據(jù)、預(yù)訓練和后訓練軟件、訓練配方全部公開。
![]()
與其他開源模型相比性能有競爭力,且速度快1.5-3.3倍。
![]()
把Mamba和Transformer混著用
Nemotron 3在架構(gòu)層面追求推理效率的最大化。
傳統(tǒng)Transformer的自注意力機制需要對不斷增長的KV Cache做線性掃描,序列越長,計算開銷越大。
英偉達的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時只需要存儲固定大小的狀態(tài),不受序列長度影響。
以Nano型號為例,整個模型主要由交替堆疊的Mamba-2層和MoE層構(gòu)成,自注意力層只保留了少數(shù)幾個。
論文給出的層排布模式是:5個Mamba-2+MoE的重復(fù)單元,接3個同樣結(jié)構(gòu)的單元,再來1個包含注意力層的單元,最后是4個Mamba-2+MoE單元。
![]()
在8k輸入、16k輸出的典型推理場景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越長,優(yōu)勢越明顯。
![]()
與此同時,模型在長上下文任務(wù)上的表現(xiàn)并沒有打折扣。
論文展示了一組RULER基準測試的結(jié)果:在100萬token輸入長度下,Nemotron 3 Nano基座模型拿到了68.2分,而在同樣條件下訓練的Nemotron 2 Nano 12B只有23.43分,出現(xiàn)了斷崖式下跌。MoE混合架構(gòu)在長度外推上的魯棒性明顯更好。
LatentMoE:在潛空間里做專家路由
針對Super和Ultra這兩個更大的模型,英偉達提出了LatentMoE架構(gòu),在潛在空間中進行專家計算。
MoE層在實際部署時會遇到兩類瓶頸:
低延遲場景下,每次只處理幾十到幾百個token,此時從顯存讀取專家權(quán)重成為主要開銷。
高吞吐場景下,一次處理數(shù)千token,此時專家間的all-to-all通信成為瓶頸。兩種情況下,開銷都與隱藏維度d線性相關(guān)。
LatentMoE的做法是:先把token從原始隱藏維度d投影到一個更小的潛在維度?(通常是d的四分之一),在這個低維空間里完成專家路由和計算,最后再投影回原始維度。
這樣一來,每個專家的權(quán)重加載量和通信量都降低了d/?倍。省下來的計算預(yù)算被用于增加專家數(shù)量和每個token激活的專家數(shù)。
![]()
標準MoE用128個專家、激活6個;LatentMoE用512個專家、激活22個。
兩者的總參數(shù)量和激活參數(shù)量幾乎相同(都是8B激活、73B總參),但LatentMoE在所有下游任務(wù)上都取得了更好的成績——MMLU-Pro從48.30提升到52.87,代碼任務(wù)從51.95提升到55.14,數(shù)學任務(wù)從78.32提升到80.19。
![]()
需要注意的是,路由門控網(wǎng)絡(luò)、共享專家計算以及非專家層仍然保留在原始維度,因為這些部分對瓶頸的貢獻很小。
用NVFP4訓練250億token
Super和Ultra還采用了NVFP4格式進行訓練,這是英偉達在低精度訓練上的又一次探索。
NVFP4是一種4位浮點格式,采用E2M1的元素格式(2位指數(shù)、1位尾數(shù)),配合16元素的微塊縮放和E4M3格式的塊縮放因子。在GB300上,F(xiàn)P4的峰值吞吐量是FP8的3倍。
論文顯示,團隊已經(jīng)用NVFP4格式穩(wěn)定訓練了高達25萬億token。與BF16訓練相比,Nano模型的損失差距控制在1%以內(nèi),8B激活參數(shù)的更大模型差距進一步縮小到0.6%以內(nèi)。
![]()
在MMLU、GSM8K、HumanEval等下游任務(wù)上,NVFP4訓練的模型與BF16版本的準確率曲線幾乎完全重合。
![]()
不過并非所有層都適合量化到NVFP4。團隊發(fā)現(xiàn)Mamba輸出投影層在量化后會出現(xiàn)高達40%的flush-to-zero現(xiàn)象,因此保留在MXFP8精度;QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度;網(wǎng)絡(luò)最后15%的層也保持高精度以確保穩(wěn)定性。MTP層和潛在投影由于對推理時間影響很小,同樣保留在BF16。
多環(huán)境強化學習一把訓到底
Nemotron 3的后訓練采用了多環(huán)境強化學習,覆蓋數(shù)學推理、競賽編程、指令遵循、軟件工程、搜索、對話、通用工具使用、長上下文等多種任務(wù)。
與之前分階段訓練不同能力的做法不同,這次英偉達選擇同時訓練所有任務(wù)。
論文指出,這種同步訓練方式更穩(wěn)定,更不容易出現(xiàn)reward hacking,也避免了分階段訓練常見的能力退化問題。
AIME25數(shù)學分數(shù)從80提升到90,LiveCodeBench從65提升到72,τ2-Bench工具使用從40提升到50左右,全程呈穩(wěn)定上升趨勢。
![]()
高效的推理吞吐量在這里發(fā)揮了重要作用。
大規(guī)模RL需要生成海量rollout樣本,Nemotron 3的混合架構(gòu)相比其他開源模型有顯著優(yōu)勢。
團隊還采用了異步RL架構(gòu)來解耦訓練和推理,并利用多token預(yù)測加速rollout生成。訓練算法方面使用GRPO配合masked importance sampling來處理訓練策略和rollout策略之間的差異。
整個后訓練軟件棧以Apache 2.0協(xié)議開源,包括NeMo-RL(可擴展RL訓練)和NeMo-Gym(RL環(huán)境集合)兩個倉庫。
此外,Nemotron 3還支持推理時的思維預(yù)算控制。
用戶可以指定思維鏈的最大token數(shù),當模型達到預(yù)算時,追加一個標記即可讓模型基于部分思維鏈生成最終回答。
論文給出了準確率與平均生成token數(shù)之間的權(quán)衡曲線,這為實際部署中的效率-精度平衡提供了細粒度控制。
論文地址:
https://arxiv.org/abs/2512.20856
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.