![]()
一個從太空乘彗星來到地球的外星人俯視下來,會發現這里有一家極具影響力和知名度的軟件公司叫做英偉達,而這家公司恰巧擁有一個極其復雜且利潤豐厚的硬件業務,運營著由其約4萬名員工中四分之三創建的專有和開源軟件集合。
因此,我們一點也不驚訝的是,隨著專有模型制造商——OpenAI、Anthropic和谷歌這些巨頭——繼續崛起并加劇競爭,不僅Meta Platforms正在考慮轉向名為Avocado的封閉模型(畢竟開源的Llama 4模型已成過去),英偉達還在其Nemotron開源模型上加倍投入。
道理很簡單。英偉達可以以成本價獲得任何規模的AI集群來進行AI訓練,而憑借其利潤豐厚的AI硬件業務,英偉達是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司,該軟件棧擁有支持各種AI和HPC模型的庫。(每個GPU每年收費4500美元,相對于"Blackwell"系列價格在35000到45000美元之間的GPU加速器來說相當便宜,具體取決于采購量和型號。)
從某種意義上說,這是回歸到六十年前IBM System/360大型機早期銷售硬件和軟件的方式,那次計算機商業化的第二次浪潮拓寬了計算和數據存儲的應用范圍。那時,你購買一臺非常昂貴的大型機系統,它會配備一隊穿藍色西裝的技術人員免費幫你編程。多年來,企業開始自己掌控應用軟件開發或向第三方購買,而IBM則通過其全球服務巨頭將客戶服務轉變為利潤中心。
我們認為,這最終將成為英偉達的發展軌跡,它將追求全棧整合(包括數據中心),以及從芯片到軟件棧最高層的垂直整合。英偉達甚至可能最終成為真正意義上的AI基礎設施提供商。(基礎設施是比云更好的詞,云是一個模糊的術語,而且是故意模糊的。)
英偉達在開源AI模型方面并不陌生,顯然它一直參與運行幾乎所有創建過的開源AI模型,以及那些已成為家喻戶曉的封閉模型,如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3發布前的預先簡報中,英偉達企業生成式AI軟件副總裁Kari Briski表示,在過去兩年半中,大約有3.5億次開源AI框架和模型被下載,Hugging Face倉庫擁有超過280萬個開源模型,涵蓋各種變體以創建特定用例的模型,約60%的公司正在使用開源AI模型和工具。Briski補充說,2025年英偉達是Hugging Face上開源內容的最大貢獻者,發布了650個開源模型和250個開源數據集。
英偉達從2019年宣布的自研transformer模型Megatron-LM開始起步。Megatron-LM可以針對80億參數進行訓練,并在512個GPU加速器上進行(使用8路GPU節點進行模型并行,64個這樣的節點進行數據并行)。2021年,通過與微軟的合作,Megatron擴展到5300億參數,推出Megatron-Turing NLG。神經模塊(簡稱NeMo)工具包與最初的Megatron-LM模型同時發布,Nemotron模型就是使用該工具包及其相關庫構建的。
最初的Nemotron模型被稱為Nemotron-4,這讓我們都感到困惑,它們于2024年6月發布,涵蓋3400億參數。通過Nemotron 1模型,英偉達將Llama 3.1基礎模型與Nemotron推理技術結合,創建了Llama Nemotron,涵蓋80億、490億、700億和2350億參數規模。
今年早些時候發布的Nemotron 2 Nano擁有90億和120億參數兩個變體,英偉達采用了谷歌在2017年6月開創并在2018年10月通過其BERT模型實現的transformer方法,并將其與卡內基梅隆大學和普林斯頓大學研究人員開發的Mamba選擇性狀態空間方法交織在一起。前者擅長從大量數據中提取特征和依賴關系,后者非常擅長聚焦于較小的數據子集及其依賴關系。
本周發布的Nemotron 3,英偉達創建了一個混合專家(MoE)架構,旨在驅動多智能體系統,這建立在混合Mamba-Transformer架構之上。Briski表示,結果是通過混合架構提高了推理效率。
"混合Mamba-Transformer架構運行速度快幾倍,內存占用更少,因為它避免了為每個Token生成龐大的注意力映射和鍵值緩存,"Briski解釋道。"因此該架構真正減少了內存占用,這使你可以擁有更多專家。我們將在Super和Ultra版本中引入一項名為潛在專家混合的突破。模型中的所有這些專家共享一個公共核心,只保留一小部分私有內容。這就像廚師共享一個大廚房,但他們可以使用自己的香料架。因此,通過這種潛在MoE,Super和Ultra將獲得更高的內存效率。"
Nemotron 3系列目前有三個成員,Briski在那里提到了其中兩個的名稱。
Nemotron 3系列很可能隨著時間推移擴展到更大和更小的模型。與其他MoE模型一樣,模型訓練有一個總參數量,然后在微調或進行推理時可以激活較小的參數子集。Nemotron 3 Nano擁有300億參數,任何時候激活30億,專門設計為可以在單個英偉達L40S GPU推理加速器上運行。Super變體有1000億參數,一次最多激活100億,Ultra版本有5000億參數,任何時候激活500億。
Briski表示,Nemotron 2 Nano和Nemotron 3模型之間的模型微調方式不同。Nemotron 2 Nano有大量監督學習——意味著人們糾正模型的輸出并將其反饋到模型中——以及少量強化學習——模型在使用過程中自我學習,但Nemotron 3有大量強化學習。Nemotron 3模型嚴重依賴強化學習,還增加了最多100萬Token的上下文窗口。
英偉達有一篇技術博客詳細解釋了Nemotron 3模型的一些細節,但要點是Mamba在捕捉長程依賴關系的同時減少了內存使用,transformer層具有處理復雜規劃和推理的注意力算法,MoE方法允許模型實際上很大但僅在必要時激活(這是谷歌在BERT之后的PaLM模型中發明的方法)。
Super和Ultra版本中的潛在MoE功能允許在模型層之間添加中間表示層,在執行Token處理時可以共享,從而允許調用4倍數量的專家,同時提供相同的推理性能。更多專家意味著更好的答案和更高的智能。Nemotron 3具有多Token預測功能,這是AI模型的一種推測執行,Super和Ultra變體在英偉達的NVFP4 4位數據精度下進行了預訓練,以提高推理的有效吞吐量。這項訓練是在25萬億Token的預訓練數據集上完成的。(尚不清楚英偉達是否向所有人開放此數據集——或者它是否能夠這樣做。)
那么Nemotron 3的表現如何?讓我們看看Artificial Analysis,這是目前的AI基準測試。到目前為止,只有Nemotron 3 Nano 30B/3B可用,以下是它在推理工作負載的每秒輸出Token數方面的表現:
與Nemotron 2模型相比,這是一個巨大的性能提升。不激活整個模型顯然對MoE有幫助,這在某種程度上是設計規范。
以下是Nemotron 3 Nano 30B/3B在模型準確性(智能,Y軸)與Token吞吐量(X軸)對比時的表現:
你希望在這個圖表上向右上方移動。
最后,以下是Nemotron 3 Nano與開放性指數(你的模型有多開放)的比較——在Y軸上繪制開放性指數,在X軸上繪制智能(答案的正確性):
有趣的是,Nemotron 3模型是否能從英偉達獲得技術支持訂閱,無論是作為AI Enterprise堆棧的一部分還是單獨提供。如果英偉達提供支持,它不必收費很多,只需足以覆蓋其模型開發成本,以削弱越來越封閉的AI模型制造商。
Q&A
Q1:為什么英偉達能夠免費提供AI模型?
A:英偉達可以以成本價獲得任何規模的AI集群來進行AI訓練,而憑借其利潤豐厚的AI硬件業務,英偉達是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司。每個GPU每年僅收費4500美元,相對于價格在35000到45000美元之間的GPU加速器來說相當便宜。這使得英偉達能夠通過硬件利潤補貼模型開發成本。
Q2:Nemotron 3模型有哪些版本和參數規模?
A:Nemotron 3系列目前有三個成員。Nano版本擁有300億參數,任何時候激活30億,專門設計為可以在單個英偉達L40S GPU推理加速器上運行。Super變體有1000億參數,一次最多激活100億。Ultra版本有5000億參數,任何時候激活500億。這些版本采用混合專家架構,只在需要時激活部分參數以提高效率。
Q3:Nemotron 3模型采用了哪些技術創新?
A:Nemotron 3采用了混合Mamba-Transformer架構,Mamba在捕捉長程依賴關系的同時減少內存使用,transformer層處理復雜規劃和推理。它采用混合專家架構,模型實際上很大但僅在必要時激活。Super和Ultra版本引入了潛在專家混合技術,允許所有專家共享公共核心,從而實現更高的內存效率。模型嚴重依賴強化學習,并提供最多100萬Token的上下文窗口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.