這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE (mixture-of-experts) 架構,使多智能體系統能夠進行快速長上下文推理。
NVIDIA Nemotron 3 系列開放模型 (Nano、Super、Ultra)、數據集和技術專為在新時代構建專業代理式 AI 而設計。該系列引入了混合 Mamba-Transformer MoE 架構、交互式環境強化學習 (reinforcement learning, RL),以及原生 100 萬 token 上下文窗口,可為多智能體應用提供高吞吐量、長時推理能力。
![]()
- Nemotron 3 的核心技術:Nemotron 3 將三種架構整合成一個主干:
- Mamba 層:實現高效序列建模
- Transformer 層:保障推理精度
- MoE 路由:實現可擴展計算效率
Mamba 層擅長以極低顯存開銷追蹤長程依賴,即使處理數十萬 token 仍能保持穩定的性能。Transformer 層通過精細注意力機制對此進行了補充,捕捉例如代碼操作、數學推理或復雜規劃等任務所需的結構與邏輯關聯。
MoE 組件在不增加密集計算開銷的前提下提升了有效參數數量。每個 token 僅激活一部分專家,從而降低了延遲并提高了吞吐量。
![]()
圖 1:Nemotron 3 混合架構。通過交錯部署 Mamba-2 與 MoE 層,輔以少量自注意力層,在保持領先精度的同時實現推理吞吐量最大化。
為使 Nemotron 3 契合真實代理式行為,該模型在 NeMo Gym(一個用于構建和擴展 RL 環境的開源庫)中通過跨多種環境的強化學習進行后訓練。這種基于軌跡的強化學習帶來了在多步驟工作流中表現穩定的模型,減少推理漂移,并能處理代理式管道中常見的結構化操作。
![]()
圖 2:Nemotron 3 Nano 通過混合 MoE 架構實現極高的吞吐效率,并借助 NeMo Gym 的先進強化學習技術達到領先精度
Nemotron 3 的 100 萬 token 上下文使其能夠在大型代碼庫、長文檔、擴展對話及聚合檢索內容中進行持續推理。智能體無需依賴碎片化的分塊啟發式方法,就可以在單個上下文窗口中完整保留證據集、歷史緩沖及多階段計劃。
- Nemotron 3 Super 與 Ultra 的核心技術:Nemotron 3 Super 與 Ultra 引入了潛在 MoE,其中專家先在共享潛在表示中運行,然后再將輸出結果投影回 token 空間。該方法使模型能夠在相同推理成本下調用多達 4 倍的專家,從而更好地圍繞微妙語義結構、領域抽象或多跳推理模式實現專業化。
![]()
圖 3:標準 MoE 與潛在 MoE 架構對比。在潛在 MoE 中,token 被投影至更小的潛在維度進行專家路由與計算,在降低通信成本的同時支持更多專家參與,并提高每字節精度。
多 token 預測 (MTP) 使模型能夠在一次前向傳播中預測多個未來 token,從而顯著提高長推理序列和結構化輸出的吞吐量。
![]()
圖 4:多 token 預測(源自論文《通過多 token 預測實現更優更快的大語言模型》)可同時預測多個未來 token,在訓練階段將精度提高約 2.4%,在推理階段實現了推測性解碼加速。
Super 與 Ultra 模型采用 NVFP4 精度進行預訓練,NVIDIA 的 4 位浮點格式可為訓練與推理提供業界領先的成本精度比。我們為 Nemotron 3 設計了更新版 NVFP4 方案,確保在 25 萬億 token 預訓練數據集上能夠實現精準且穩定的預訓練。預訓練過程中的大部分浮點乘加運算均采用 NVFP4 格式。
以上為摘要內容,點擊鏈接閱讀完整內容:深入解析 NVIDIA Nemotron 3:使其高效精準的技術、工具與數據 - NVIDIA 技術博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.