網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Nvidia押注開放基礎(chǔ)設(shè)施迎接智能體AI時(shí)代的Nemotron 3模型家族

2025-12-30 22:11:27　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

AI智能體必須能夠在大型上下文和長(zhǎng)期時(shí)間段內(nèi)進(jìn)行合作、協(xié)調(diào)和執(zhí)行，Nvidia表示，這需要一種新型的基礎(chǔ)設(shè)施，一種開放的基礎(chǔ)設(shè)施。

該公司表示，它已經(jīng)找到了答案——推出全新的Nemotron 3開放模型家族。

開發(fā)人員和工程師可以使用這些新模型來(lái)創(chuàng)建特定領(lǐng)域的AI智能體或應(yīng)用程序，而無(wú)需從頭構(gòu)建基礎(chǔ)模型。Nvidia還發(fā)布了其大部分訓(xùn)練數(shù)據(jù)和強(qiáng)化學(xué)習(xí)（RL）庫(kù)，供任何希望構(gòu)建AI智能體的人使用。

"這是Nvidia對(duì)DeepSeek擾亂AI市場(chǎng)的回應(yīng)，"西北AI咨詢公司的Wyatt Mayham表示。"他們提供了一個(gè)具有企業(yè)支持和硬件優(yōu)化的'業(yè)務(wù)就緒'開放替代方案。"

Nemotron 3具有Nvidia所稱的"突破性混合潛在專家混合（MoE）架構(gòu)"。該模型有三種規(guī)模：

Nano：最小且最具"計(jì)算成本效益"的版本，專為定向、高效的任務(wù)而設(shè)計(jì)，如快速信息檢索、軟件調(diào)試、內(nèi)容摘要和AI助手工作流程。這個(gè)300億參數(shù)模型一次激活30億參數(shù)以提升速度，擁有100萬(wàn)Token的上下文窗口，使其能夠在多步驟任務(wù)中記憶和連接信息。

Super：一個(gè)先進(jìn)的高精度推理模型，擁有大約1000億參數(shù)，每個(gè)Token最多激活100億參數(shù)。它專為需要多個(gè)協(xié)作智能體來(lái)處理復(fù)雜任務(wù)的應(yīng)用而設(shè)計(jì)，如深度研究和戰(zhàn)略規(guī)劃，具有低延遲特性。

Ultra：一個(gè)大型推理引擎，專為復(fù)雜AI應(yīng)用而設(shè)計(jì)。它擁有5000億參數(shù)，每個(gè)Token最多激活500億參數(shù)。

Nemotron 3 Nano現(xiàn)已在Hugging Face以及其他推理服務(wù)提供商和企業(yè)AI及數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)上提供。它很快將通過Amazon Bedrock在AWS上可用，并將在Google Cloud、CoreWeave、Microsoft Foundry和其他公共基礎(chǔ)設(shè)施上得到支持。它還作為預(yù)構(gòu)建的Nvidia NIM微服務(wù)提供。

Nemotron 3 Super和Ultra預(yù)計(jì)將在2026年上半年可用。

專家指出，這里的戰(zhàn)略定位與API提供商根本不同。

"Nvidia并不試圖與OpenAI或Anthropic的托管服務(wù)競(jìng)爭(zhēng)——他們將自己定位為企業(yè)構(gòu)建和擁有自己AI智能體的基礎(chǔ)設(shè)施層，"Mayham說(shuō)道。

Info-Tech研究集團(tuán)的首席研究總監(jiān)Brian Jackson同意Nemotron模型不是現(xiàn)成的產(chǎn)品。"它們更像是開發(fā)人員可以開始使用的預(yù)制餐包，"他說(shuō)，"并在過程中進(jìn)行所需的修改，以獲得他們想要的確切效果。"

到目前為止，Nemotron 3似乎在效率和性能方面表現(xiàn)出令人印象深刻的提升；根據(jù)第三方基準(zhǔn)測(cè)試公司Artificial Analysis的數(shù)據(jù)，Nano在同等規(guī)模的模型中最為高效，并在準(zhǔn)確性方面領(lǐng)先。

Nvidia表示，Nano的混合Mamba-Transformer MoE架構(gòu)將三種架構(gòu)集成到單一骨干網(wǎng)絡(luò)中，支持這種效率。Mamba層提供高效的序列建模，Transformer層提供精確推理，MoE路由提供可擴(kuò)展的計(jì)算效率。該公司表示，這種設(shè)計(jì)相比Nemotron 2 Nano提供了4倍更高的Token吞吐量，同時(shí)將推理Token生成減少了高達(dá)60%。

"吞吐量是智能體AI的關(guān)鍵指標(biāo)，"Mayham說(shuō)。"當(dāng)你協(xié)調(diào)數(shù)十個(gè)并發(fā)智能體時(shí)，推理成本會(huì)急劇上升。更高的吞吐量意味著每個(gè)Token的成本更低，實(shí)時(shí)智能體行為響應(yīng)更快。"

他指出，推理Token生成減少60%解決了"冗長(zhǎng)問題"，即思維鏈（CoT）模型在產(chǎn)生有用輸出之前會(huì)生成過多的內(nèi)部推理。"對(duì)于構(gòu)建多智能體系統(tǒng)的開發(fā)人員來(lái)說(shuō)，這直接轉(zhuǎn)化為更低的延遲和更少的計(jì)算成本。"

即將推出的Nemotron 3 Super，Nvidia表示，在需要多個(gè)協(xié)作智能體以低延遲實(shí)現(xiàn)復(fù)雜任務(wù)的應(yīng)用中表現(xiàn)出色，而Nemotron 3 Ultra將作為需要深度研究和戰(zhàn)略規(guī)劃的AI工作流程的高級(jí)推理引擎。

Mayham解釋說(shuō)，這些尚未發(fā)布的模型具有潛在MoE功能，在專家路由之前將Token投影到較小的潛在維度中，"理論上"能夠在相同推理成本下實(shí)現(xiàn)4倍的專家數(shù)量，因?yàn)樗鼫p少了GPU之間的通信開銷。

Mayham表示，Nemotron 3背后結(jié)合Mamba-2層、稀疏Transformer和MoE路由的混合架構(gòu)"在其組合方面確實(shí)新穎"，盡管每種技術(shù)在其他地方都單獨(dú)存在。

最終，Nemotron的定價(jià)是"有吸引力的"，他說(shuō)；開放權(quán)重可以免費(fèi)下載并在本地運(yùn)行。他指出，DeepInfra上的第三方API定價(jià)從每百萬(wàn)輸入Token 0.06美元開始，"明顯比GPT-4o便宜"。

為了強(qiáng)調(diào)其對(duì)開源的承諾，Nvidia正在揭示Nemotron 3的一些內(nèi)部工作原理，發(fā)布具有真實(shí)世界遙測(cè)數(shù)據(jù)的安全評(píng)估數(shù)據(jù)集，以及Nemotron 3的預(yù)訓(xùn)練、后訓(xùn)練和RL數(shù)據(jù)集的3萬(wàn)億Token。

此外，Nvidia正在開源其NeMo Gym和NeMo RL庫(kù)，它們提供Nemotron 3的訓(xùn)練環(huán)境和后訓(xùn)練基礎(chǔ)，以及NeMo Evaluator，幫助構(gòu)建者驗(yàn)證模型安全性和性能。這些現(xiàn)在都在GitHub和Hugging Face上可用。其中，Mayham指出，NeMo Gym可能是此次發(fā)布中最"具有戰(zhàn)略意義"的部分。

Mayham解釋說(shuō)，預(yù)訓(xùn)練教模型預(yù)測(cè)Token，而不是完成特定領(lǐng)域的任務(wù)，傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)（RLHF）無(wú)法為復(fù)雜的智能體行為擴(kuò)展。NeMo Gym啟用了具有可驗(yàn)證獎(jiǎng)勵(lì)的RL——本質(zhì)上是任務(wù)完成的計(jì)算驗(yàn)證，而不是主觀的人類評(píng)分。也就是說(shuō)，代碼是否通過了測(cè)試？數(shù)學(xué)是否正確？工具是否被正確調(diào)用？

這為構(gòu)建特定領(lǐng)域智能體的開發(fā)人員提供了基礎(chǔ)設(shè)施，讓他們?cè)谧约旱墓ぷ髁鞒躺嫌?xùn)練模型，而無(wú)需了解完整的RL訓(xùn)練循環(huán)。

Moor Insights & Strategy的副總裁兼首席分析師Jason Andersen解釋說(shuō)："這個(gè)想法是NeMo Gym將加速模型RL作業(yè)的設(shè)置和執(zhí)行。重要的區(qū)別是NeMo Gym將RL環(huán)境與訓(xùn)練本身分離，因此它可以輕松設(shè)置和創(chuàng)建多個(gè)訓(xùn)練實(shí)例（或'健身房'）。"

Mayham稱這種"前所未有的開放性"是Nemotron 3發(fā)布的真正差異化因素。"沒有主要競(jìng)爭(zhēng)對(duì)手提供這種程度的完整性，"他說(shuō)。"對(duì)于企業(yè)來(lái)說(shuō)，這意味著對(duì)定制、本地部署和成本優(yōu)化的完全控制，這是封閉提供商根本無(wú)法匹配的。"

但Mayham指出，在能力方面存在權(quán)衡：Claude和GPT-4o在編程基準(zhǔn)等專業(yè)任務(wù)上仍然優(yōu)于Nemotron 3。然而，Nemotron 3似乎針對(duì)的是不同的買家：需要部署靈活性且不希望供應(yīng)商鎖定的企業(yè)。

"對(duì)企業(yè)的價(jià)值主張不是原始能力，而是開放權(quán)重、訓(xùn)練數(shù)據(jù)、部署靈活性和Nvidia生態(tài)系統(tǒng)集成的結(jié)合，這是封閉提供商無(wú)法匹配的，"他說(shuō)。

Q&A

Q1：Nemotron 3有哪些規(guī)格型號(hào)？各自的特點(diǎn)是什么？

A：Nemotron 3有三個(gè)型號(hào)：Nano（300億參數(shù)，計(jì)算成本最低，適用于信息檢索、軟件調(diào)試等高效任務(wù)）、Super（1000億參數(shù)，高精度推理，適用于多智能體協(xié)作的復(fù)雜任務(wù)）、Ultra（5000億參數(shù)，大型推理引擎，專為復(fù)雜AI應(yīng)用設(shè)計(jì)）。

Q2：Nemotron 3相比傳統(tǒng)模型有哪些技術(shù)優(yōu)勢(shì)？

A：Nemotron 3采用混合Mamba-Transformer MoE架構(gòu)，相比Nemotron 2 Nano提供4倍更高的Token吞吐量，推理Token生成減少60%。這種設(shè)計(jì)結(jié)合了Mamba層的高效序列建模、Transformer層的精確推理和MoE路由的可擴(kuò)展計(jì)算效率。

Q3：如何獲取和使用Nemotron 3？?jī)r(jià)格如何？

A：Nemotron 3 Nano現(xiàn)已在Hugging Face等平臺(tái)提供，開放權(quán)重免費(fèi)下載本地運(yùn)行。第三方API價(jià)格從每百萬(wàn)輸入Token 0.06美元起，比GPT-4o便宜。Nvidia還開源了訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)庫(kù)和評(píng)估工具供開發(fā)者使用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.