<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

      0
      分享至

      夢晨 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      英偉達在開源模型上玩的很激進:

      “最高效的開放模型家族”Nemotron 3,混合Mamba-Transformer MoE架構(gòu)、NVFP4低精度訓練全用上。



      而且開放得很徹底:

      不僅開放模型權(quán)重,還要把超過10萬億token的訓練數(shù)據(jù)、預(yù)訓練和后訓練軟件、訓練配方全部公開。



      與其他開源模型相比性能有競爭力,且速度快1.5-3.3倍。



      把Mamba和Transformer混著用

      Nemotron 3在架構(gòu)層面追求推理效率的最大化。

      傳統(tǒng)Transformer的自注意力機制需要對不斷增長的KV Cache做線性掃描,序列越長,計算開銷越大。

      英偉達的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時只需要存儲固定大小的狀態(tài),不受序列長度影響。

      以Nano型號為例,整個模型主要由交替堆疊的Mamba-2層和MoE層構(gòu)成,自注意力層只保留了少數(shù)幾個。

      論文給出的層排布模式是:5個Mamba-2+MoE的重復(fù)單元,接3個同樣結(jié)構(gòu)的單元,再來1個包含注意力層的單元,最后是4個Mamba-2+MoE單元。



      在8k輸入、16k輸出的典型推理場景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越長,優(yōu)勢越明顯。



      與此同時,模型在長上下文任務(wù)上的表現(xiàn)并沒有打折扣。

      論文展示了一組RULER基準測試的結(jié)果:在100萬token輸入長度下,Nemotron 3 Nano基座模型拿到了68.2分,而在同樣條件下訓練的Nemotron 2 Nano 12B只有23.43分,出現(xiàn)了斷崖式下跌。MoE混合架構(gòu)在長度外推上的魯棒性明顯更好。

      LatentMoE:在潛空間里做專家路由

      針對Super和Ultra這兩個更大的模型,英偉達提出了LatentMoE架構(gòu),在潛在空間中進行專家計算。

      MoE層在實際部署時會遇到兩類瓶頸:

      低延遲場景下,每次只處理幾十到幾百個token,此時從顯存讀取專家權(quán)重成為主要開銷。

      高吞吐場景下,一次處理數(shù)千token,此時專家間的all-to-all通信成為瓶頸。兩種情況下,開銷都與隱藏維度d線性相關(guān)。

      LatentMoE的做法是:先把token從原始隱藏維度d投影到一個更小的潛在維度?(通常是d的四分之一),在這個低維空間里完成專家路由和計算,最后再投影回原始維度。

      這樣一來,每個專家的權(quán)重加載量和通信量都降低了d/?倍。省下來的計算預(yù)算被用于增加專家數(shù)量和每個token激活的專家數(shù)。



      標準MoE用128個專家、激活6個;LatentMoE用512個專家、激活22個。

      兩者的總參數(shù)量和激活參數(shù)量幾乎相同(都是8B激活、73B總參),但LatentMoE在所有下游任務(wù)上都取得了更好的成績——MMLU-Pro從48.30提升到52.87,代碼任務(wù)從51.95提升到55.14,數(shù)學任務(wù)從78.32提升到80.19。



      需要注意的是,路由門控網(wǎng)絡(luò)、共享專家計算以及非專家層仍然保留在原始維度,因為這些部分對瓶頸的貢獻很小。

      用NVFP4訓練250億token

      Super和Ultra還采用了NVFP4格式進行訓練,這是英偉達在低精度訓練上的又一次探索。

      NVFP4是一種4位浮點格式,采用E2M1的元素格式(2位指數(shù)、1位尾數(shù)),配合16元素的微塊縮放和E4M3格式的塊縮放因子。在GB300上,F(xiàn)P4的峰值吞吐量是FP8的3倍。

      論文顯示,團隊已經(jīng)用NVFP4格式穩(wěn)定訓練了高達25萬億token。與BF16訓練相比,Nano模型的損失差距控制在1%以內(nèi),8B激活參數(shù)的更大模型差距進一步縮小到0.6%以內(nèi)。



      在MMLU、GSM8K、HumanEval等下游任務(wù)上,NVFP4訓練的模型與BF16版本的準確率曲線幾乎完全重合。



      不過并非所有層都適合量化到NVFP4。團隊發(fā)現(xiàn)Mamba輸出投影層在量化后會出現(xiàn)高達40%的flush-to-zero現(xiàn)象,因此保留在MXFP8精度;QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度;網(wǎng)絡(luò)最后15%的層也保持高精度以確保穩(wěn)定性。MTP層和潛在投影由于對推理時間影響很小,同樣保留在BF16。

      多環(huán)境強化學習一把訓到底

      Nemotron 3的后訓練采用了多環(huán)境強化學習,覆蓋數(shù)學推理、競賽編程、指令遵循、軟件工程、搜索、對話、通用工具使用、長上下文等多種任務(wù)。

      與之前分階段訓練不同能力的做法不同,這次英偉達選擇同時訓練所有任務(wù)。

      論文指出,這種同步訓練方式更穩(wěn)定,更不容易出現(xiàn)reward hacking,也避免了分階段訓練常見的能力退化問題。

      AIME25數(shù)學分數(shù)從80提升到90,LiveCodeBench從65提升到72,τ2-Bench工具使用從40提升到50左右,全程呈穩(wěn)定上升趨勢。



      高效的推理吞吐量在這里發(fā)揮了重要作用。

      大規(guī)模RL需要生成海量rollout樣本,Nemotron 3的混合架構(gòu)相比其他開源模型有顯著優(yōu)勢。

      團隊還采用了異步RL架構(gòu)來解耦訓練和推理,并利用多token預(yù)測加速rollout生成。訓練算法方面使用GRPO配合masked importance sampling來處理訓練策略和rollout策略之間的差異。

      整個后訓練軟件棧以Apache 2.0協(xié)議開源,包括NeMo-RL(可擴展RL訓練)和NeMo-Gym(RL環(huán)境集合)兩個倉庫。

      此外,Nemotron 3還支持推理時的思維預(yù)算控制。

      用戶可以指定思維鏈的最大token數(shù),當模型達到預(yù)算時,追加一個標記即可讓模型基于部分思維鏈生成最終回答。

      論文給出了準確率與平均生成token數(shù)之間的權(quán)衡曲線,這為實際部署中的效率-精度平衡提供了細粒度控制。

      論文地址:
      https://arxiv.org/abs/2512.20856

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      曹西平驟逝!曾自曝患憂郁癥獨居泰國 去年才嘆老了走不動

      曹西平驟逝!曾自曝患憂郁癥獨居泰國 去年才嘆老了走不動

      ETtoday星光云
      2025-12-30 07:10:09
      俄稱烏企圖襲擊普京官邸

      俄稱烏企圖襲擊普京官邸

      界面新聞
      2025-12-29 23:30:43
      中央特科最美傳奇女特工被判槍決,毛主席拍案大怒:她是全黨的恩人

      中央特科最美傳奇女特工被判槍決,毛主席拍案大怒:她是全黨的恩人

      睡前講故事
      2025-12-21 16:15:28
      紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

      紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

      全球軍事記
      2025-12-27 17:23:45
      正式加盟!你好,模型怪!終于殺回了NBA

      正式加盟!你好,模型怪!終于殺回了NBA

      籃球?qū)崙?zhàn)寶典
      2025-12-29 23:08:44
      貴金屬遭遇“巨震星期一”:現(xiàn)貨白銀從+6%到-8% 金鉑鈀同步跳水

      貴金屬遭遇“巨震星期一”:現(xiàn)貨白銀從+6%到-8% 金鉑鈀同步跳水

      財聯(lián)社
      2025-12-30 05:25:09
      1953年,王震突然被撤職,毛主席拍桌子:你知不知道,你把中央的大事給搞砸了!

      1953年,王震突然被撤職,毛主席拍桌子:你知不知道,你把中央的大事給搞砸了!

      桃煙讀史
      2025-12-14 18:02:22
      “兒子都腺樣體了,還吃烤腸呢?”一份糊弄早餐暴露家長的低認知

      “兒子都腺樣體了,還吃烤腸呢?”一份糊弄早餐暴露家長的低認知

      妍妍教育日記
      2025-12-26 17:18:26
      1979年對越自衛(wèi)反擊戰(zhàn)期間,中央早已下達撤軍命令,許世友卻堅持要再打兩小時,這是為何?

      1979年對越自衛(wèi)反擊戰(zhàn)期間,中央早已下達撤軍命令,許世友卻堅持要再打兩小時,這是為何?

      史海殘云
      2025-12-25 12:05:18
      深夜,全線下跌!發(fā)生了什么?

      深夜,全線下跌!發(fā)生了什么?

      證券時報
      2025-12-29 23:35:17
      馬云預(yù)言兌現(xiàn)?2026年手上還握有存款的人,別忽視這三大現(xiàn)實

      馬云預(yù)言兌現(xiàn)?2026年手上還握有存款的人,別忽視這三大現(xiàn)實

      來科點譜
      2025-12-29 09:01:09
      亞當斯:楊瀚森吃什么由他自己做主;威少經(jīng)常吃糖還是很強

      亞當斯:楊瀚森吃什么由他自己做主;威少經(jīng)常吃糖還是很強

      懂球帝
      2025-12-29 09:46:12
      豪宅,打了市場一記耳光

      豪宅,打了市場一記耳光

      格隆匯樓市V
      2025-12-29 21:46:01
      斷層封神!河北彩花:一顰一笑皆風情,引得全網(wǎng)瘋狂為她打 call

      斷層封神!河北彩花:一顰一笑皆風情,引得全網(wǎng)瘋狂為她打 call

      灼灼小齊
      2025-12-30 00:15:03
      烏軍一個人堅守陣地472天,撤下火線時,已經(jīng)幾乎不會走路!

      烏軍一個人堅守陣地472天,撤下火線時,已經(jīng)幾乎不會走路!

      百態(tài)人間
      2025-12-29 16:36:37
      突發(fā)特訊!解放軍海報中三艘美軍核潛艇被攔截

      突發(fā)特訊!解放軍海報中三艘美軍核潛艇被攔截

      在新加坡生活
      2025-12-30 07:57:06
      一夜虧光1800萬,白銀波動率飆至90%,不是交易,是屠殺!....

      一夜虧光1800萬,白銀波動率飆至90%,不是交易,是屠殺!....

      思哲與創(chuàng)富
      2025-12-29 18:57:19
      開拓者爆冷升至東部第三,楊瀚森數(shù)據(jù)全隊第二高但細節(jié)存憾

      開拓者爆冷升至東部第三,楊瀚森數(shù)據(jù)全隊第二高但細節(jié)存憾

      小皷拍客在北漂
      2025-12-29 10:30:36
      5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

      5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

      現(xiàn)代小青青慕慕
      2025-12-26 14:42:10
      日本侵華長達14年,為何打印度一次就放棄,10萬重兵一半喪命?

      日本侵華長達14年,為何打印度一次就放棄,10萬重兵一半喪命?

      墨說古今
      2025-12-23 23:25:01
      2025-12-30 10:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11942文章數(shù) 176346關(guān)注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達數(shù)十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經(jīng)要聞

      翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時代來了

      態(tài)度原創(chuàng)

      數(shù)碼
      健康
      親子
      旅游
      公開課

      數(shù)碼要聞

      3999元!閃極loomos AI顯示眼鏡S1發(fā)布:整機29克全球最輕

      這些新療法,讓化療不再那么痛苦

      親子要聞

      有了女兒后,你才會發(fā)現(xiàn)父女的奇妙聯(lián)結(jié)

      旅游要聞

      文化遺產(chǎn)耀中原|武則天的“通天秘境”——洛陽明堂天堂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 强行从后面挺进人妻| 精品人伦一区二区三区蜜桃免费| 91免费高清| 亚洲综合一区二区三区| 亚洲色无码国产精品网站可下载| 马尔康县| 性夜夜春夜夜爽夜夜免费视频| 日韩人妻无码一区二区三区综合部| 淮阳县| 人妻精品视频| 中文字幕av无码不卡| 丁香五月情| 亚洲欧洲av| 国产成人无码AV片在线观看不卡| 亚洲色一区二区三区四区| 国产女高清在线看免费观看| 精品国模无码| 开心激情站开心激情网六月婷婷| 尤物av无码色av无码| 国产成人精品午夜2022| 露脸丨91丨九色露脸| 18久久| 亚洲国产成人无码av在线影院| 日本三级香港三级三级人!妇久| 文安县| 熟女AV在线| 久久香蕉国产线看观看猫咪av| 亚欧色一区w666天堂| 国产suv精品一区二区| 东台市| 丁香激情网| 乱人伦人妻中文字幕不卡| 性人久久久久| 国产亚洲精品久久久久5区| 祁连县| 欧美福利极品| 被灌满精子的少妇视频| 中文字幕av在线一二三区| 制服丝袜中文字幕在线| 国产成人AV| 91精品国产综合久久久蜜臀678|