![]()
AI智能體必須能夠在大型上下文和長(zhǎng)期時(shí)間段內(nèi)進(jìn)行合作、協(xié)調(diào)和執(zhí)行,Nvidia表示,這需要一種新型的基礎(chǔ)設(shè)施,一種開放的基礎(chǔ)設(shè)施。
該公司表示,它已經(jīng)找到了答案——推出全新的Nemotron 3開放模型家族。
開發(fā)人員和工程師可以使用這些新模型來(lái)創(chuàng)建特定領(lǐng)域的AI智能體或應(yīng)用程序,而無(wú)需從頭構(gòu)建基礎(chǔ)模型。Nvidia還發(fā)布了其大部分訓(xùn)練數(shù)據(jù)和強(qiáng)化學(xué)習(xí)(RL)庫(kù),供任何希望構(gòu)建AI智能體的人使用。
"這是Nvidia對(duì)DeepSeek擾亂AI市場(chǎng)的回應(yīng),"西北AI咨詢公司的Wyatt Mayham表示。"他們提供了一個(gè)具有企業(yè)支持和硬件優(yōu)化的'業(yè)務(wù)就緒'開放替代方案。"
Nemotron 3具有Nvidia所稱的"突破性混合潛在專家混合(MoE)架構(gòu)"。該模型有三種規(guī)模:
Nano:最小且最具"計(jì)算成本效益"的版本,專為定向、高效的任務(wù)而設(shè)計(jì),如快速信息檢索、軟件調(diào)試、內(nèi)容摘要和AI助手工作流程。這個(gè)300億參數(shù)模型一次激活30億參數(shù)以提升速度,擁有100萬(wàn)Token的上下文窗口,使其能夠在多步驟任務(wù)中記憶和連接信息。
Super:一個(gè)先進(jìn)的高精度推理模型,擁有大約1000億參數(shù),每個(gè)Token最多激活100億參數(shù)。它專為需要多個(gè)協(xié)作智能體來(lái)處理復(fù)雜任務(wù)的應(yīng)用而設(shè)計(jì),如深度研究和戰(zhàn)略規(guī)劃,具有低延遲特性。
Ultra:一個(gè)大型推理引擎,專為復(fù)雜AI應(yīng)用而設(shè)計(jì)。它擁有5000億參數(shù),每個(gè)Token最多激活500億參數(shù)。
Nemotron 3 Nano現(xiàn)已在Hugging Face以及其他推理服務(wù)提供商和企業(yè)AI及數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)上提供。它很快將通過Amazon Bedrock在AWS上可用,并將在Google Cloud、CoreWeave、Microsoft Foundry和其他公共基礎(chǔ)設(shè)施上得到支持。它還作為預(yù)構(gòu)建的Nvidia NIM微服務(wù)提供。
Nemotron 3 Super和Ultra預(yù)計(jì)將在2026年上半年可用。
專家指出,這里的戰(zhàn)略定位與API提供商根本不同。
"Nvidia并不試圖與OpenAI或Anthropic的托管服務(wù)競(jìng)爭(zhēng)——他們將自己定位為企業(yè)構(gòu)建和擁有自己AI智能體的基礎(chǔ)設(shè)施層,"Mayham說(shuō)道。
Info-Tech研究集團(tuán)的首席研究總監(jiān)Brian Jackson同意Nemotron模型不是現(xiàn)成的產(chǎn)品。"它們更像是開發(fā)人員可以開始使用的預(yù)制餐包,"他說(shuō),"并在過程中進(jìn)行所需的修改,以獲得他們想要的確切效果。"
到目前為止,Nemotron 3似乎在效率和性能方面表現(xiàn)出令人印象深刻的提升;根據(jù)第三方基準(zhǔn)測(cè)試公司Artificial Analysis的數(shù)據(jù),Nano在同等規(guī)模的模型中最為高效,并在準(zhǔn)確性方面領(lǐng)先。
Nvidia表示,Nano的混合Mamba-Transformer MoE架構(gòu)將三種架構(gòu)集成到單一骨干網(wǎng)絡(luò)中,支持這種效率。Mamba層提供高效的序列建模,Transformer層提供精確推理,MoE路由提供可擴(kuò)展的計(jì)算效率。該公司表示,這種設(shè)計(jì)相比Nemotron 2 Nano提供了4倍更高的Token吞吐量,同時(shí)將推理Token生成減少了高達(dá)60%。
"吞吐量是智能體AI的關(guān)鍵指標(biāo),"Mayham說(shuō)。"當(dāng)你協(xié)調(diào)數(shù)十個(gè)并發(fā)智能體時(shí),推理成本會(huì)急劇上升。更高的吞吐量意味著每個(gè)Token的成本更低,實(shí)時(shí)智能體行為響應(yīng)更快。"
他指出,推理Token生成減少60%解決了"冗長(zhǎng)問題",即思維鏈(CoT)模型在產(chǎn)生有用輸出之前會(huì)生成過多的內(nèi)部推理。"對(duì)于構(gòu)建多智能體系統(tǒng)的開發(fā)人員來(lái)說(shuō),這直接轉(zhuǎn)化為更低的延遲和更少的計(jì)算成本。"
即將推出的Nemotron 3 Super,Nvidia表示,在需要多個(gè)協(xié)作智能體以低延遲實(shí)現(xiàn)復(fù)雜任務(wù)的應(yīng)用中表現(xiàn)出色,而Nemotron 3 Ultra將作為需要深度研究和戰(zhàn)略規(guī)劃的AI工作流程的高級(jí)推理引擎。
Mayham解釋說(shuō),這些尚未發(fā)布的模型具有潛在MoE功能,在專家路由之前將Token投影到較小的潛在維度中,"理論上"能夠在相同推理成本下實(shí)現(xiàn)4倍的專家數(shù)量,因?yàn)樗鼫p少了GPU之間的通信開銷。
Mayham表示,Nemotron 3背后結(jié)合Mamba-2層、稀疏Transformer和MoE路由的混合架構(gòu)"在其組合方面確實(shí)新穎",盡管每種技術(shù)在其他地方都單獨(dú)存在。
最終,Nemotron的定價(jià)是"有吸引力的",他說(shuō);開放權(quán)重可以免費(fèi)下載并在本地運(yùn)行。他指出,DeepInfra上的第三方API定價(jià)從每百萬(wàn)輸入Token 0.06美元開始,"明顯比GPT-4o便宜"。
為了強(qiáng)調(diào)其對(duì)開源的承諾,Nvidia正在揭示Nemotron 3的一些內(nèi)部工作原理,發(fā)布具有真實(shí)世界遙測(cè)數(shù)據(jù)的安全評(píng)估數(shù)據(jù)集,以及Nemotron 3的預(yù)訓(xùn)練、后訓(xùn)練和RL數(shù)據(jù)集的3萬(wàn)億Token。
此外,Nvidia正在開源其NeMo Gym和NeMo RL庫(kù),它們提供Nemotron 3的訓(xùn)練環(huán)境和后訓(xùn)練基礎(chǔ),以及NeMo Evaluator,幫助構(gòu)建者驗(yàn)證模型安全性和性能。這些現(xiàn)在都在GitHub和Hugging Face上可用。其中,Mayham指出,NeMo Gym可能是此次發(fā)布中最"具有戰(zhàn)略意義"的部分。
Mayham解釋說(shuō),預(yù)訓(xùn)練教模型預(yù)測(cè)Token,而不是完成特定領(lǐng)域的任務(wù),傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)無(wú)法為復(fù)雜的智能體行為擴(kuò)展。NeMo Gym啟用了具有可驗(yàn)證獎(jiǎng)勵(lì)的RL——本質(zhì)上是任務(wù)完成的計(jì)算驗(yàn)證,而不是主觀的人類評(píng)分。也就是說(shuō),代碼是否通過了測(cè)試?數(shù)學(xué)是否正確?工具是否被正確調(diào)用?
這為構(gòu)建特定領(lǐng)域智能體的開發(fā)人員提供了基礎(chǔ)設(shè)施,讓他們?cè)谧约旱墓ぷ髁鞒躺嫌?xùn)練模型,而無(wú)需了解完整的RL訓(xùn)練循環(huán)。
Moor Insights & Strategy的副總裁兼首席分析師Jason Andersen解釋說(shuō):"這個(gè)想法是NeMo Gym將加速模型RL作業(yè)的設(shè)置和執(zhí)行。重要的區(qū)別是NeMo Gym將RL環(huán)境與訓(xùn)練本身分離,因此它可以輕松設(shè)置和創(chuàng)建多個(gè)訓(xùn)練實(shí)例(或'健身房')。"
Mayham稱這種"前所未有的開放性"是Nemotron 3發(fā)布的真正差異化因素。"沒有主要競(jìng)爭(zhēng)對(duì)手提供這種程度的完整性,"他說(shuō)。"對(duì)于企業(yè)來(lái)說(shuō),這意味著對(duì)定制、本地部署和成本優(yōu)化的完全控制,這是封閉提供商根本無(wú)法匹配的。"
但Mayham指出,在能力方面存在權(quán)衡:Claude和GPT-4o在編程基準(zhǔn)等專業(yè)任務(wù)上仍然優(yōu)于Nemotron 3。然而,Nemotron 3似乎針對(duì)的是不同的買家:需要部署靈活性且不希望供應(yīng)商鎖定的企業(yè)。
"對(duì)企業(yè)的價(jià)值主張不是原始能力,而是開放權(quán)重、訓(xùn)練數(shù)據(jù)、部署靈活性和Nvidia生態(tài)系統(tǒng)集成的結(jié)合,這是封閉提供商無(wú)法匹配的,"他說(shuō)。
Q&A
Q1:Nemotron 3有哪些規(guī)格型號(hào)?各自的特點(diǎn)是什么?
A:Nemotron 3有三個(gè)型號(hào):Nano(300億參數(shù),計(jì)算成本最低,適用于信息檢索、軟件調(diào)試等高效任務(wù))、Super(1000億參數(shù),高精度推理,適用于多智能體協(xié)作的復(fù)雜任務(wù))、Ultra(5000億參數(shù),大型推理引擎,專為復(fù)雜AI應(yīng)用設(shè)計(jì))。
Q2:Nemotron 3相比傳統(tǒng)模型有哪些技術(shù)優(yōu)勢(shì)?
A:Nemotron 3采用混合Mamba-Transformer MoE架構(gòu),相比Nemotron 2 Nano提供4倍更高的Token吞吐量,推理Token生成減少60%。這種設(shè)計(jì)結(jié)合了Mamba層的高效序列建模、Transformer層的精確推理和MoE路由的可擴(kuò)展計(jì)算效率。
Q3:如何獲取和使用Nemotron 3??jī)r(jià)格如何?
A:Nemotron 3 Nano現(xiàn)已在Hugging Face等平臺(tái)提供,開放權(quán)重免費(fèi)下載本地運(yùn)行。第三方API價(jià)格從每百萬(wàn)輸入Token 0.06美元起,比GPT-4o便宜。Nvidia還開源了訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)庫(kù)和評(píng)估工具供開發(fā)者使用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.