網易首頁 > 網易號 > 正文申請入駐

英偉達成為唯一能免費提供AI模型的廠商

2025-12-18 22:38:07　來源: 至頂頭條

北京舉報

分享至

一個從太空乘彗星來到地球的外星人俯視下來，會發現這里有一家極具影響力和知名度的軟件公司叫做英偉達，而這家公司恰巧擁有一個極其復雜且利潤豐厚的硬件業務，運營著由其約4萬名員工中四分之三創建的專有和開源軟件集合。

因此，我們一點也不驚訝的是，隨著專有模型制造商——OpenAI、Anthropic和谷歌這些巨頭——繼續崛起并加劇競爭，不僅Meta Platforms正在考慮轉向名為Avocado的封閉模型（畢竟開源的Llama 4模型已成過去），英偉達還在其Nemotron開源模型上加倍投入。

道理很簡單。英偉達可以以成本價獲得任何規模的AI集群來進行AI訓練，而憑借其利潤豐厚的AI硬件業務，英偉達是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司，該軟件棧擁有支持各種AI和HPC模型的庫。（每個GPU每年收費4500美元，相對于"Blackwell"系列價格在35000到45000美元之間的GPU加速器來說相當便宜，具體取決于采購量和型號。）

從某種意義上說，這是回歸到六十年前IBM System/360大型機早期銷售硬件和軟件的方式，那次計算機商業化的第二次浪潮拓寬了計算和數據存儲的應用范圍。那時，你購買一臺非常昂貴的大型機系統，它會配備一隊穿藍色西裝的技術人員免費幫你編程。多年來，企業開始自己掌控應用軟件開發或向第三方購買，而IBM則通過其全球服務巨頭將客戶服務轉變為利潤中心。

我們認為，這最終將成為英偉達的發展軌跡，它將追求全棧整合（包括數據中心），以及從芯片到軟件棧最高層的垂直整合。英偉達甚至可能最終成為真正意義上的AI基礎設施提供商。（基礎設施是比云更好的詞，云是一個模糊的術語，而且是故意模糊的。）

英偉達在開源AI模型方面并不陌生，顯然它一直參與運行幾乎所有創建過的開源AI模型，以及那些已成為家喻戶曉的封閉模型，如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3發布前的預先簡報中，英偉達企業生成式AI軟件副總裁Kari Briski表示，在過去兩年半中，大約有3.5億次開源AI框架和模型被下載，Hugging Face倉庫擁有超過280萬個開源模型，涵蓋各種變體以創建特定用例的模型，約60%的公司正在使用開源AI模型和工具。Briski補充說，2025年英偉達是Hugging Face上開源內容的最大貢獻者，發布了650個開源模型和250個開源數據集。

英偉達從2019年宣布的自研transformer模型Megatron-LM開始起步。Megatron-LM可以針對80億參數進行訓練，并在512個GPU加速器上進行（使用8路GPU節點進行模型并行，64個這樣的節點進行數據并行）。2021年，通過與微軟的合作，Megatron擴展到5300億參數，推出Megatron-Turing NLG。神經模塊（簡稱NeMo）工具包與最初的Megatron-LM模型同時發布，Nemotron模型就是使用該工具包及其相關庫構建的。

最初的Nemotron模型被稱為Nemotron-4，這讓我們都感到困惑，它們于2024年6月發布，涵蓋3400億參數。通過Nemotron 1模型，英偉達將Llama 3.1基礎模型與Nemotron推理技術結合，創建了Llama Nemotron，涵蓋80億、490億、700億和2350億參數規模。

今年早些時候發布的Nemotron 2 Nano擁有90億和120億參數兩個變體，英偉達采用了谷歌在2017年6月開創并在2018年10月通過其BERT模型實現的transformer方法，并將其與卡內基梅隆大學和普林斯頓大學研究人員開發的Mamba選擇性狀態空間方法交織在一起。前者擅長從大量數據中提取特征和依賴關系，后者非常擅長聚焦于較小的數據子集及其依賴關系。

本周發布的Nemotron 3，英偉達創建了一個混合專家（MoE）架構，旨在驅動多智能體系統，這建立在混合Mamba-Transformer架構之上。Briski表示，結果是通過混合架構提高了推理效率。

"混合Mamba-Transformer架構運行速度快幾倍，內存占用更少，因為它避免了為每個Token生成龐大的注意力映射和鍵值緩存，"Briski解釋道。"因此該架構真正減少了內存占用，這使你可以擁有更多專家。我們將在Super和Ultra版本中引入一項名為潛在專家混合的突破。模型中的所有這些專家共享一個公共核心，只保留一小部分私有內容。這就像廚師共享一個大廚房，但他們可以使用自己的香料架。因此，通過這種潛在MoE，Super和Ultra將獲得更高的內存效率。"

Nemotron 3系列目前有三個成員，Briski在那里提到了其中兩個的名稱。

Nemotron 3系列很可能隨著時間推移擴展到更大和更小的模型。與其他MoE模型一樣，模型訓練有一個總參數量，然后在微調或進行推理時可以激活較小的參數子集。Nemotron 3 Nano擁有300億參數，任何時候激活30億，專門設計為可以在單個英偉達L40S GPU推理加速器上運行。Super變體有1000億參數，一次最多激活100億，Ultra版本有5000億參數，任何時候激活500億。

Briski表示，Nemotron 2 Nano和Nemotron 3模型之間的模型微調方式不同。Nemotron 2 Nano有大量監督學習——意味著人們糾正模型的輸出并將其反饋到模型中——以及少量強化學習——模型在使用過程中自我學習，但Nemotron 3有大量強化學習。Nemotron 3模型嚴重依賴強化學習，還增加了最多100萬Token的上下文窗口。

英偉達有一篇技術博客詳細解釋了Nemotron 3模型的一些細節，但要點是Mamba在捕捉長程依賴關系的同時減少了內存使用，transformer層具有處理復雜規劃和推理的注意力算法，MoE方法允許模型實際上很大但僅在必要時激活（這是谷歌在BERT之后的PaLM模型中發明的方法）。

Super和Ultra版本中的潛在MoE功能允許在模型層之間添加中間表示層，在執行Token處理時可以共享，從而允許調用4倍數量的專家，同時提供相同的推理性能。更多專家意味著更好的答案和更高的智能。Nemotron 3具有多Token預測功能，這是AI模型的一種推測執行，Super和Ultra變體在英偉達的NVFP4 4位數據精度下進行了預訓練，以提高推理的有效吞吐量。這項訓練是在25萬億Token的預訓練數據集上完成的。（尚不清楚英偉達是否向所有人開放此數據集——或者它是否能夠這樣做。）

那么Nemotron 3的表現如何？讓我們看看Artificial Analysis，這是目前的AI基準測試。到目前為止，只有Nemotron 3 Nano 30B/3B可用，以下是它在推理工作負載的每秒輸出Token數方面的表現：

與Nemotron 2模型相比，這是一個巨大的性能提升。不激活整個模型顯然對MoE有幫助，這在某種程度上是設計規范。

以下是Nemotron 3 Nano 30B/3B在模型準確性（智能，Y軸）與Token吞吐量（X軸）對比時的表現：

你希望在這個圖表上向右上方移動。

最后，以下是Nemotron 3 Nano與開放性指數（你的模型有多開放）的比較——在Y軸上繪制開放性指數，在X軸上繪制智能（答案的正確性）：

有趣的是，Nemotron 3模型是否能從英偉達獲得技術支持訂閱，無論是作為AI Enterprise堆棧的一部分還是單獨提供。如果英偉達提供支持，它不必收費很多，只需足以覆蓋其模型開發成本，以削弱越來越封閉的AI模型制造商。

Q&A

Q1：為什么英偉達能夠免費提供AI模型？

A：英偉達可以以成本價獲得任何規模的AI集群來進行AI訓練，而憑借其利潤豐厚的AI硬件業務，英偉達是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司。每個GPU每年僅收費4500美元，相對于價格在35000到45000美元之間的GPU加速器來說相當便宜。這使得英偉達能夠通過硬件利潤補貼模型開發成本。

Q2：Nemotron 3模型有哪些版本和參數規模？

A：Nemotron 3系列目前有三個成員。Nano版本擁有300億參數，任何時候激活30億，專門設計為可以在單個英偉達L40S GPU推理加速器上運行。Super變體有1000億參數，一次最多激活100億。Ultra版本有5000億參數，任何時候激活500億。這些版本采用混合專家架構，只在需要時激活部分參數以提高效率。

Q3：Nemotron 3模型采用了哪些技術創新？

A：Nemotron 3采用了混合Mamba-Transformer架構，Mamba在捕捉長程依賴關系的同時減少內存使用，transformer層處理復雜規劃和推理。它采用混合專家架構，模型實際上很大但僅在必要時激活。Super和Ultra版本引入了潛在專家混合技術，允許所有專家共享公共核心，從而實現更高的內存效率。模型嚴重依賴強化學習，并提供最多100萬Token的上下文窗口。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.