![]()
如果有外星人乘坐彗星從太空飛來俯視地球,會看到這樣一個現象:有一家極具影響力和知名度的軟件公司叫英偉達,它恰好擁有一個極其復雜且盈利豐厚的硬件業務,運行著大約四萬名員工中約四分之三人員負責的專有和開源軟件集合。
因此,我們一點也不意外地看到,隨著專有模型制造商——OpenAI、Anthropic和谷歌是其中的大玩家——繼續崛起并加劇競爭,不僅Meta平臺正在考慮轉向名為Avocado的封閉模型(開源的Llama 4模型終究要完蛋),英偉達也在加倍投入其Nemotron開源模型。
道理很簡單。英偉達可以以成本價獲得進行AI訓練所需的任何規模的AI集群,鑒于其AI硬件業務的巨額利潤,英偉達是唯一能夠負擔免費提供模型并對其AI Enterprise軟件堆棧收費很少的公司,該軟件堆棧擁有支持各種AI和高性能計算模型的庫。(每個GPU每年4500美元,相對于"Blackwell"系列中根據批量和型號可能花費3.5萬到4.5萬美元的GPU加速器來說是相對便宜的。)
從某種意義上說,這是回到了IBM System/360大型機早期硬件和軟件銷售方式,六十年前的第二波計算機商業化浪潮中,這種方式擴大了計算和數據存儲的使用。那時,你購買一個非常昂貴的大型機系統,它配備一隊穿藍色西裝的技術人員,會免費幫助你編程。多年來,公司開始控制開發自己的應用軟件或向第三方尋求軟件,IBM藍色巨人通過其全球服務巨頭將客戶服務轉變為盈利中心。
我們認為,這最終將是英偉達的發展軌跡,因為它追求全堆棧集成(包括數據中心),以及從芯片到軟件堆棧最高層的垂直集成。英偉達甚至可能最終成為自己的AI公用事業。(公用事業是比云更好的詞匯,云是一個模糊的術語,而且是故意模糊的。)
英偉達在開源AI模型方面并不是新手,顯然一直參與運行幾乎所有創建的開源AI模型,以及已成為家喻戶曉名字的封閉模型,如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3發布前的簡報會上,英偉達企業生成式AI軟件副總裁Kari Briski表示,在過去兩年半中,大約下載了3.5億個開源AI框架和模型,Hugging Face存儲庫擁有超過280萬個開放模型,涵蓋各種變體以為特定用例創建模型,約60%的公司正在使用開源AI模型和工具。Briski補充說,2025年英偉達是Hugging Face上開源內容的最大貢獻者,發布了650個開放模型和250個開放數據集。
英偉達通過自主開發的Transformer模型Megatron-LM起步,該模型于2019年發布。Megatron-LM可以訓練80億個參數,并在512個GPU加速器上進行訓練(使用8路GPU節點進行模型并行,64個這樣的節點進行數據并行)。2021年,通過與微軟的合作,Megatron擴展到5300億個參數,形成了Megatron-Turing NLG。神經模塊工具包(簡稱NeMo)與原始Megatron-LM模型同時發布,Nemotron模型就是使用這個工具包及其相關庫構建的。
最初的Nemotron模型被稱為Nemotron-4,這讓我們都感到困惑,它們于2024年6月發布,跨越3400億個參數。通過Nemotron 1模型,英偉達將Llama 3.1基礎模型與Nemotron推理技術結合,創建了Llama Nemotron,跨越80億、490億、700億和2350億參數規模。
今年早些時候發布的Nemotron 2 Nano具有90億和120億參數的變體,英偉達采用了谷歌在2017年6月率先提出并在2018年10月通過其BERT模型實現的Transformer方法,并將其與卡內基梅隆大學和普林斯頓大學研究人員開發的Mamba選擇性狀態空間方法交織在一起。前者擅長從大量數據中提取特征和依賴關系,后者非常善于聚焦于較小的數據子集及其依賴關系。
本周發布的Nemotron 3,英偉達正在創建一個混合專家(MoE)架構,旨在驅動基于這種混合Mamba-Transformer架構的多智能體系統。Briski說,結果是由于混合架構而提高了推理效率。
"混合Mamba-Transformer架構運行速度快幾倍,內存使用更少,因為它避免了每個Token的巨大注意力圖和鍵值緩存,"Briski解釋說。"所以這種架構真正減少了內存占用,讓你可以擁有更多專家。我們將在Super和Ultra版本中引入一個叫做潛在專家混合的突破。模型中的所有這些專家共享一個公共核心,只保留一小部分私有。這就像廚師共享一個大廚房,但他們可以使用自己的調料架。所以你將通過這種潛在MoE在Super和Ultra版本中獲得更高的內存效率。"
Nemotron 3家族目前有三個成員,其中兩個Briski在那里提到了名字。
Nemotron 3家族很可能隨著時間推移擴展到更大和更小的模型。像其他MoE模型一樣,有一個模型訓練的參數總量,然后有一個較小的參數子集可以在微調或進行推理時激活。Nemotron 3 Nano有300億個參數,任何時候激活30億個,專門設計為可以在單個英偉達L40S GPU推理加速器上運行。Super變體有1000億個參數,一次最多激活100億個,Ultra版本有5000億個參數,任何給定時間激活500億個。
Briski表示,模型的微調在Nemotron 2 Nano和Nemotron 3模型之間是不同的。Nemotron 2 Nano有大量監督學習——意味著人們糾正模型的輸出并將其反饋給模型——以及一點強化學習——模型在使用時自我學習,但Nemotron 3有大量強化學習。Nemotron 3模型嚴重依賴強化學習,還添加了高達100萬Token的上下文窗口。
英偉達有一個技術博客解釋了Nemotron 3模型的一些要點,但要點是Mamba在捕獲長距離依賴的同時減少了內存使用,Transformer層具有處理復雜規劃和推理的注意力算法,MoE方法允許模型有效地變大但只在必要時激活(這是谷歌在BERT之后進入該領域的PaLM模型發明的方法)。
即將在Super和Ultra版本中出現的潛在MoE特性允許在模型層之間添加中間表示層,可以在執行Token處理時共享,這允許調用4倍數量的專家,同時提供相同的推理性能。更多專家意味著更好的答案和更高的智能。Nemotron 3具有多Token預測,這是AI模型的一種推測執行,Super和Ultra變體已在英偉達的NVFP4 4位數據精度中進行預訓練,以提高推理的有效吞吐量。這種訓練是在25萬億Token預訓練數據集上完成的。(不清楚英偉達是否向所有人開放這個數據集——或者它是否能夠做到這一點。)
那么Nemotron 3表現如何?讓我們看看Artificial Analysis,這是目前的AI基準。到目前為止,只有Nemotron 3 Nano 30B/3B可用,以下是它在推理工作負載的每秒輸出Token方面的評級:
與Nemotron 2模型相比,這是一個巨大的性能提升。不激活整個模型顯然對MoE有幫助,這有點像設計規范。
以下是當您繪制模型準確性(智能,Y軸)與Token吞吐量(X軸)時Nemotron 3 Nano 30B/3B的比較:
在這個圖表上,您希望位于右上方。
最后,以下是Nemotron 3 Nano與開放性指數的比較——您的模型有多開放——在Y軸上繪制,智能(答案正確性)在X軸上:
有趣的是,看看Nemotron 3模型是否能夠從英偉達獲得技術支持訂閱,無論是作為AI Enterprise堆棧的一部分還是單獨提供。如果英偉達提供支持,它不必收費很多,只需足夠覆蓋其模型開發成本,以削弱日益封閉的AI模型制造商。
Q&A
Q1:Nemotron 3相比之前版本有什么主要改進?
A:Nemotron 3采用了混合Mamba-Transformer架構,結合了專家混合(MoE)設計。這種架構運行速度比之前版本快幾倍,內存使用更少,因為避免了每個Token的巨大注意力圖和鍵值緩存。同時,Nemotron 3嚴重依賴強化學習,并支持高達100萬Token的上下文窗口,顯著提高了推理效率。
Q2:Nemotron 3家族包含哪些不同規模的模型?
A:Nemotron 3家族目前有三個成員:Nano版本有300億參數,任何時候激活30億個,可在單個英偉達L40S GPU上運行;Super變體有1000億參數,一次最多激活100億個;Ultra版本有5000億參數,任何時間激活500億個。這種專家混合架構讓模型可以很大但只在必要時激活相應部分。
Q3:英偉達為什么能負擔免費提供AI模型?
A:英偉達擁有極其盈利的AI硬件業務,可以以成本價獲得任何規模的AI訓練集群。相比其他公司需要購買昂貴的GPU進行訓練,英偉達的硬件優勢讓它成為唯一能夠負擔免費提供模型的廠商。它只需對AI Enterprise軟件堆棧收取相對較少的費用(每個GPU每年4500美元),就能覆蓋開發成本并削弱封閉模型競爭對手。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.