![]()
新智元報道
編輯:定慧
【新智元導讀】2025年底,AI戰局繼續撲朔迷離,賣鏟子的英偉達似乎也想要下場挖礦了。12月15日英偉達對外宣布Nemotron 3家族(Nano/Super/Ultra),Nano先發布,Super/Ultra規劃在2026年上半年。
長久以來,全世界都習慣默認AI領域遵循一種分工:英偉達和其他。
其他包括:OpenAI、Meta、谷歌、DeepSeek、xAI等等。
分工的原則也很簡單:賣鏟子和用鏟子的。
![]()
最近谷歌靠著TPU,具備了和英偉達掰一掰手腕的能力。但短期內依然難以撼動英偉達
只要金礦還在,無論誰挖到了金子,賣鏟子的人永遠穩賺不賠。
這種商業模式讓英偉達的市值一度沖破天際,成為全球最賺錢的科技公司之一。
![]()
然而,2025年底,英偉達似乎不再滿足于這種狀態,它想親自下場挖礦。
英偉達正式發布了全新的開源模型家族——Nemotron 3。
![]()
![]()
這不僅僅是一次例行的產品更新,更像是一次精心策劃的戰略突襲。
英偉達不再滿足于僅僅提供硬件底座,它親自下場了,而且一出手就是顛覆性的「王炸」:
Mamba架構、MoE(混合專家模型)、混合架構、100萬Context(上下文窗口)。
Nemotron 3系列開源模型涵蓋Nano、Super和Ultra三種規格。
![]()
Nemotron 3是英偉達對OpenAI或Meta開源的一次簡單模仿嗎?還是黃仁勛的玩票之舉?
解剖Nemotron 3
縫合怪還是終極進化體?
在AI的競技場上,架構就是命運。
過去幾年,Transformer架構如日中天,它是ChatGPT的靈魂,是Llama的基石,是所有大模型的底層。
但隨著模型參數的膨脹和應用場景的深入,Transformer的瓶頸也日益凸顯:推理成本高、顯存占用大、處理超長文本時效率低下。
![]()
英偉達這次推出的Nemotron 3家族,并非單純的Transformer模型,而是一個集眾家之長的「混血王子」。
它極其大膽地融合了Mamba(狀態空間模型)、Transformer(注意力機制)和MoE(混合專家模型)三大頂尖技術。
![]()
其中,Nemotron 3 Nano通過突破性的混合專家架構,吞吐量比Nemotron 2 Nano提升4倍。
Nemotron憑借先進的強化學習技術,通過大規模并發多環境后訓練實現了卓越的準確性。
NVIDIA率先發布了一套最先進的開源模型、訓練數據集以及強化學習環境和庫,用于構建高精度、高效率的專用AI智能體。
家族譜系:不僅僅是「大、中、小」
Nemotron 3并非單指一個模型,而是一個完整的家族矩陣,旨在覆蓋從端側設備到云端超級計算機的全場景需求。
根據英偉達的規劃,這個家族主要包含三位成員,每一位都身負不同的戰略使命:
Nemotron 3 Nano(現已發布):邊緣側的「特種兵」
參數規模:總參數量30B(300億),但推理時激活參數僅為3B(30億)左右。
核心定位:它是家族中的先鋒,主打高效推理和邊緣計算。在消費級顯卡甚至高端筆記本上就能流暢運行。
技術亮點:它是目前市面上最強的「小鋼炮」,利用混合架構實現了極致的吞吐量,專門針對需要快速響應的Agent(智能體)任務設計。
戰略意義:Nano的存在是為了證明「混合架構」的可行性,并迅速占領開發者桌面和端側設備市場。
Nemotron 3 Super(預計2026上半年)
參數規模:約100B(1000億),激活參數約10B。
核心定位:面向企業級應用和多智能體(Multi-Agent)協作的中樞。它需要在性能與成本之間找到完美的平衡點。
技術躍遷:預計將引入更高級的Latent MoE技術,專為復雜的企業工作流設計。
![]()
![]()
Nemotron 3 Ultra(預計2026上半年):挑戰GPT-5
參數規模:約500B(5000億),激活參數約50B。
核心定位:家族的旗艦,處理最復雜的推理、科研和深度規劃任務。
野心:直接對標GPT-5級別的閉源模型,旨在成為開源界的推理天花板。它將展示英偉達在超大規模集群上的訓練能力。
Nemotron 3 Nano它不僅僅是一個模型,更是一個技術驗證平臺,證明了「Mamba+MoE」在小參數下也能爆發出驚人的戰斗力。
Mamba架構:向Transformer的「內存殺手」宣戰
要理解Nemotron 3的革命性,首先得聊聊Mamba。
為什么英偉達要在一個主流模型中引入這個相對「小眾」的架構?
在LLM(大語言模型)的世界里,Transformer是絕對的霸主,但它有一個致命的弱點:
隨著輸入內容的變長,它的計算量和內存消耗呈平方級爆炸式增長。
想象一下,你讀一本書。
如果你是Transformer,讀第一頁時很輕松;讀到第一千頁時,為了理解當前的句子,你必須同時在腦海里復盤前999頁的每一個字與當前字的關系(注意力機制)。
這需要巨大的「腦容量」(顯存)。當上下文達到10萬、100萬字時,任何現有的GPU都會被瞬間撐爆。
Mamba則不同。它基于SSM(狀態空間模型,State Space Models),本質上更像是一個擁有超強短期記憶的循環神經網絡。
它閱讀的方式更像人類:讀過去的內容會被「消化」進一個固定大小的記憶狀態(State)中,不需要時刻回頭翻看每一個字。
![]()
論文地址:https://arxiv.org/pdf/2312.00752
Mamba的核心優勢:
- 線性復雜度(O(N)):
無論書有多厚,Mamba的推理消耗幾乎是恒定的。讀1萬字和讀100萬字,對顯存的壓力幾乎一樣。
- 推理速度極快:
因為不需要計算龐大的KVCache(鍵值緩存)注意力矩陣,Mamba的生成速度(吞吐量)極高。
- 無限上下文的潛力:
理論上,Mamba可以處理極長的序列而不會撐爆顯存。
![]()
然而,Mamba也有短板。
在處理極其復雜的邏輯推理、或者需要「回頭看」精準定位某個信息點(Copying/Recall任務)時,它的表現不如Transformer的Attention機制精準。
因為信息在被壓縮進「狀態」時,難免會有損耗。
英偉達的解法:成年人不做選擇,我全都要。
Nemotron 3采用了Hybrid Mamba-Transformer(混合Mamba-Transformer)架構。
![]()
這是一個聰明的設計:
Mamba層(主力):負責處理海量的上下文信息,構建長期的記憶流,保證模型「讀得快、記得多、省顯存」。這構成了模型的主干。
Transformer層(輔助):在關鍵節點插入Attention層,負責「精準打擊」,處理需要高度邏輯推理和細節回調的任務。
![]()
這種設計讓Nemotron 3 Nano擁有了100萬token(1M)的超長上下文窗口,同時推理速度比同尺寸的純Transformer模型快了4倍。
MoE架構:把大象裝進冰箱的魔法
如果說Mamba解決了「長」的問題,那么MoE(Mixture of Experts,混合專家)就解決了「大」的問題。
傳統的稠密模型(Dense Model)像是一個全能通才,不管你問什么問題(是寫詩還是算數),它都要調動大腦里所有的神經元來思考。
這非常浪費算力。
MoE架構則像是一個「專家團」。
在Nemotron 3 Nano這個30B的模型里,住著128個不同的「專家」(Experts)。
NVFP4:英偉達「新霸權」
這是英偉達硬件霸權的直接體現。
![]()
Nemotron 3 Super/Ultra將采用NVFP4格式進行訓練和推理。
![]()
論文鏈接:https://arxiv.org/html/2509.25149v1
Blackwell專屬:這是英偉達下一代GPU架構Blackwell的原生支持格式。
極致壓縮:相比現在的FP16(16位浮點)或BF16,NVFP4將模型體積壓縮了3.5倍。
精度無損:許多人擔心4-bit精度會讓模型變笨。
英偉達利用特殊的兩級縮放(Two-levelScaling)技術,結合塊級(Block-level)和張量級(Tensor-level)的縮放因子,在4-bit這種極低精度下,依然保持了模型的高性能。
![]()
這意味著什么?
這意味著,未來的500B巨型模型(Ultra),可能只需要現在100B模型的顯存就能跑起來。
但這有一個前提:你必須用英偉達的Blackwell顯卡。
![]()
這是一個極其隱蔽但致命的「軟硬件鎖定」策略。
英偉達正在通過數據格式,為自己的硬件挖一條深深的護城河。
此外,英偉達還推出了「NeMo Gym」強化學習實驗室,并罕見地開源了訓練數據,旨在為開發者提供構建AI智能體的完整工具鏈。
英偉達的「陽謀」
為什么英偉達這個在這個星球上最賺錢的芯片公司,還要費盡心機去搞一個開源模型?
甚至不惜投入巨大的資源去研發Mamba這種非主流架構?
從「賣鏟子」到「定義挖礦標準」
過去,英偉達是單純的「賣鏟子」。
不管你用PyTorch還是TensorFlow,不管你跑Llama還是GPT,只要你買H100/H200/GB200,黃仁勛就開心。
但現在,市場變了。
危機正在逼近:
- 競爭對手崛起:
AMD的ROCm正在追趕;谷歌的TPU在自家生態里極其便宜且強大,甚至能做到比英偉達便宜一半;各大云廠商(AWS、Azure)都在自研推理芯片。
- 模型架構分化:
如果未來的模型不再依賴CUDA優化,或者專門針對TPU優化,英偉達的護城河就會變淺。
發布Nemotron 3,英偉達實際上是想要定義下一代AI的標準。
推廣Mamba架構:Mamba架構雖然好,但對硬件優化要求極高(需要高效的并行掃描算法)。
誰最懂如何在GPU上跑Mamba?
當然是英偉達。通過開源高性能的Mamba模型,英偉達在誘導開發者使用這種架構。
一旦生態形成,大家會發現:只有在英偉達的GPU上,Mamba才能跑得這么快。這就在算法層面鎖死了硬件選擇。
NVFP4的鎖定:這是一個更露骨的陽謀。
Nemotron 3 Super/Ultra使用NVFP4格式。這是一種只有Blackwell GPU原生支持的格式。
如果你想用最高效、最先進的開源模型?請購買Blackwell顯卡。
英偉達不再滿足于你用它的卡,它要你用它的架構、它的數據格式、它的軟件棧。
它要讓整個AI生態長在它的硅基底座上。
Nemotron 3的發布,標志著AI行業進入了一個新的階段。
英偉達正在構筑一個閉環的開放生態。聽起來很矛盾?不,這正是高明之處。
從戰術上看,這是一款極其優秀的模型。它快、準、省,解決了企業部署AI的痛點,特別是對于那些想做Agent、想處理長文檔的公司來說,Nemotron 3 Nano似乎也是一個不錯的答案。
從戰略上看,這是英偉達構建「AI帝國」最關鍵的一塊拼圖。
硬件:Blackwell GPU+NVLink+NVFP4。
軟件:CUDA+NeMo+TensorRT。
模型:Nemotron(Mamba+MoE)。
應用:NIMs(Nvidia Inference Microservices)。
它開放模型權重,讓誰都能用;但它封閉最佳體驗,只有在英偉達的全棧生態里,你才能獲得那4倍的加速、那極致的壓縮、那絲滑的部署體驗。
對于開發者來說,這是一場盛宴。有了更強的開源工具,能做更酷的事情。
對于競爭對手來說,這是一場噩夢。追趕英偉達的難度,從單純造出芯片,變成了要造出芯片、還要適配架構、還要優化軟件、還要提供模型……這是一場全維度的戰爭。
Nemotron 3就像是黃仁勛扔進AI湖面的一顆石子,漣漪才剛剛開始擴散。
2026年,當500B參數的Nemotron Ultra帶著Latent MoE和NVFP4降臨時,那或許才是AI大戰真正的「諾曼底」時刻。
彩蛋
不過,想要做好大模型并不是容易的事情。
英偉達最新Nemotron 3在開源榜單中排名已經出來了。
Nemotron 3 Nano(30B-A3B)目前在文本排行榜上排名第120位,得分為1328分,在開源模型中排名第47位。
![]()
參考資料:
https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models
https://venturebeat.com/ai/nvidia-debuts-nemotron-3-with-hybrid-moe-and-mamba-transformer-to-drive
https://www.wired.com/story/nvidia-becomes-major-model-maker-nemotron-3/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.