![]()
智東西
作者 ZeR0
編輯 漠影
智東西12月16日?qǐng)?bào)道,今日,英偉達(dá)推出了NVIDIA Nemotron 3系列開(kāi)放模型、數(shù)據(jù)和庫(kù),并公布Nemotron 3 Nano模型的技術(shù)報(bào)告。
Nemotron 3模型包括Nano、Super、Ultra三種規(guī)模,可幫助大規(guī)模開(kāi)發(fā)并部署可靠的多智能體系統(tǒng),實(shí)現(xiàn)快速、長(zhǎng)上下文推理。
- Nemotron 3 Nano:擁有300億參數(shù)的小型模型,每次運(yùn)行最多激活30億參數(shù),適用于針對(duì)性、高效的任務(wù),主打高計(jì)算成本效益,展現(xiàn)了增強(qiáng)的智能體、推理和聊天能力,針對(duì)軟件調(diào)試、內(nèi)容摘要、AI助手工作流及信息檢索等任務(wù)進(jìn)行了優(yōu)化。
- Nemotron 3 Super:擁有約1000億參數(shù)的高精度推理模型,每個(gè)token最多激活100億參數(shù),適用于多智能體應(yīng)用,在需要多智能體協(xié)作完成低延遲復(fù)雜任務(wù)的應(yīng)用中表現(xiàn)出色。
- Nemotron 3 Ultra:擁有約5000億參數(shù)的大型推理引擎,每個(gè)token最多激活500億參數(shù),適用于復(fù)雜的AI應(yīng)用,可服務(wù)于需要深度研究和策略規(guī)劃的AI工作流。
Nemotron 3系列模型引入了混合Mamba-Transformer MoE架構(gòu)、跨交互式環(huán)境的強(qiáng)化學(xué)習(xí)、原生100萬(wàn)個(gè)token的上下文窗口,為多智能體應(yīng)用實(shí)現(xiàn)高吞吐量、長(zhǎng)時(shí)域推理。
該模型引入了多項(xiàng)創(chuàng)新,直接滿(mǎn)足了智能體系統(tǒng)的需求:
- 采用混合Mamba-Transformer MoE主干網(wǎng),實(shí)現(xiàn)卓越的測(cè)試時(shí)間效率和長(zhǎng)距離推理能力。
- 圍繞真實(shí)世界的智能體任務(wù)設(shè)計(jì)的多環(huán)境強(qiáng)化學(xué)習(xí)。
- 支持深度多文檔推理和長(zhǎng)時(shí)間運(yùn)行的智能體記憶的100萬(wàn)個(gè)token上下文長(zhǎng)度。
- 一個(gè)開(kāi)放、透明的訓(xùn)練流程,包括數(shù)據(jù)、權(quán)重和配方。
根據(jù)技術(shù)報(bào)告,相比類(lèi)似參數(shù)規(guī)模的開(kāi)放模型(如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507),Nemotron 3 Nano實(shí)現(xiàn)了多達(dá)3.3倍的推理吞吐量。
Nemotron 3 Nano已上線(xiàn)Hugging Face平臺(tái),并通過(guò)Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI等推理服務(wù)商提供。
![]()
Hugging Face地址:huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8
Nemotron 3 Nano體驗(yàn)地址:build.nvidia.com/nvidia/nemotron-3-nano-30b-a3b
Nemotron 3 Super和Ultra預(yù)計(jì)將于2026年上半年推出。這兩款模型采用了基于NVIDIA Blackwell架構(gòu)的超高效4位NVFP4訓(xùn)練格式和創(chuàng)新的潛在MoE架構(gòu),可顯著降低顯存需求,加速訓(xùn)練進(jìn)程,提高模型質(zhì)量。
這兩款更高性能模型,將是明年開(kāi)源社區(qū)期待的重點(diǎn)產(chǎn)品。
除了整套前沿開(kāi)放模型外,英偉達(dá)還發(fā)布了面向?qū)I(yè)AI智能體開(kāi)發(fā)者的訓(xùn)練數(shù)據(jù)集與前沿強(qiáng)化學(xué)習(xí)庫(kù)集合,多方位助力構(gòu)建高精度、高效的專(zhuān)業(yè)AI智能體。
值得關(guān)注的是,英偉達(dá)并不只是追求基準(zhǔn)測(cè)試成績(jī),而是通過(guò)開(kāi)源開(kāi)放,將訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)環(huán)境、訓(xùn)練代碼等傾囊放出,希望更多開(kāi)發(fā)者得以利用更優(yōu)質(zhì)的數(shù)據(jù)構(gòu)建更好的模型,大幅降低開(kāi)發(fā)門(mén)檻。
Nemotron 3模型權(quán)重根據(jù)英偉達(dá)開(kāi)放模型許可協(xié)議公開(kāi)發(fā)布。英偉達(dá)的合成預(yù)訓(xùn)練語(yǔ)料庫(kù)(近10萬(wàn)億個(gè)token)可供查閱或重新利用。開(kāi)發(fā)者還可以訪(fǎng)問(wèn)Nemotron GitHub代碼庫(kù)中的詳細(xì)訓(xùn)練和訓(xùn)練后處理方案,從而實(shí)現(xiàn)完全的可復(fù)現(xiàn)性和自定義性。
此外,英偉達(dá)今日宣布收購(gòu)AI開(kāi)源工作負(fù)載管理系統(tǒng)提供商SchedMD。SchedMD由Slurm軟件開(kāi)發(fā)人員Morris “Moe” Jette和Danny Auble于2010年在美國(guó)加州利弗莫爾創(chuàng)立。其提供開(kāi)源的Slurm技術(shù),可幫助安排可能占用數(shù)據(jù)中心服務(wù)器容量很大一部分的大型計(jì)算作業(yè)。
英偉達(dá)稱(chēng)將繼續(xù)以開(kāi)源方式分發(fā)SchedMD的軟件,英偉達(dá)與SchedMD聯(lián)手正在加強(qiáng)開(kāi)源軟件生態(tài)系統(tǒng),以促進(jìn)各行各業(yè)、各個(gè)規(guī)模的高性能計(jì)算和AI創(chuàng)新。
一、多項(xiàng)基準(zhǔn)測(cè)試分?jǐn)?shù)超30B Qwen3和20B GPT-OSS
Nemotron 3系列的首款產(chǎn)品Nemotron 3 Nano,專(zhuān)為DGX Spark、H100和B200 GPU設(shè)計(jì),實(shí)現(xiàn)了高吞吐量效率。
獨(dú)立AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis評(píng)定該模型為同等規(guī)模模型中兼具極高開(kāi)放性和效率及高精度的模型。
![]()
![]()
![]()
根據(jù)Nemotron 3 Nano技術(shù)報(bào)告,相比相似規(guī)模的Qwen3-30B-A3B-Thinking-2507和GPT-OSS-20B模型,Nemotron 3 Nano在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了同等或更好的精度。
![]()
在大多數(shù)通用知識(shí)、代碼、數(shù)學(xué)、常識(shí)理解,閱讀理解,多語(yǔ)言和長(zhǎng)上下文基準(zhǔn)中,Nemotron 3 Nano均取得了高于Qwen3-30B-A3B-Base模型的分?jǐn)?shù)。
![]()
在數(shù)學(xué)和科學(xué)推理、編程、智能體工具使用、指令遵循、長(zhǎng)期上下文理解和多語(yǔ)言能力等綜合性能評(píng)估中,Nemotron 3 Nano在所有類(lèi)別均超過(guò)了GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507。
![]()
在推理基準(zhǔn)上,Nemotron 3 Nano超過(guò)了Qwen3模型,并與之前在這些類(lèi)別中最好的模型GPT-OSS比肩。在智能體、聊天和長(zhǎng)上下文類(lèi)別中,Nemotron 3 Nano顯著優(yōu)于其他兩種模型。
Nemotron系列模型的早期用戶(hù)包括埃森哲、Cadence、CrowdStrike、Cursor、德勤、安永、Oracle Cloud Infrastructure、Perplexity、ServiceNow、西門(mén)子、新思科技和Zoom。他們正將Nemotron系列模型集成到制造、網(wǎng)絡(luò)安全、軟件開(kāi)發(fā)、媒體、通信等行業(yè)的AI工作流中。
該模型已上線(xiàn)多個(gè)企業(yè)級(jí)AI與數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái),包括Couchbase、DataRobot、H2O.ai、JFrog、Lambda及UiPath。
此外,Nemotron 3 Nano將通過(guò)Amazon Bedrock(無(wú)服務(wù)器模式)在亞馬遜云科技(AWS)平臺(tái)上提供給使用公有云的客戶(hù),并且也即將支持Google Cloud、Coreweave、Crusoe、Microsoft Foundry、Nebius、Nscale及Yotta。
Nemotron 3 Nano同時(shí)以NVIDIA NIM形式提供,可在NVIDIA加速基礎(chǔ)設(shè)施上進(jìn)行安全、可擴(kuò)展的部署,具有極高的隱私性與可控性。
二、混合Mamba-Transformer、多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練、4位NVFP4訓(xùn)練
英偉達(dá)意在打造出更實(shí)用的模型,這在其模型設(shè)計(jì)中可見(jiàn)一斑。
1、混合Mamba-Transformer
Nemotron 3將三種架構(gòu)集成到一個(gè)單一的主干網(wǎng)中:
- 用于高效序列建模的Mamba層;
- 用于精確推理的Transformer層;
- MoE路由實(shí)現(xiàn)可擴(kuò)展的計(jì)算效率。
Mamba擅長(zhǎng)以最小的內(nèi)存開(kāi)銷(xiāo)跟蹤長(zhǎng)距離依賴(lài)關(guān)系,即使處理數(shù)十萬(wàn)個(gè)token也能保持持續(xù)的性能。Transformer層通過(guò)精細(xì)的注意力機(jī)制對(duì)此進(jìn)行補(bǔ)充,這些機(jī)制可以捕獲代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)和邏輯關(guān)系。
MoE組件在不增加密集計(jì)算成本的情況下,顯著提升了有效參數(shù)數(shù)量。每個(gè)token僅激活一部分專(zhuān)家,從而降低延遲并提高吞吐量。這種架構(gòu)尤其適用于智能體集群,因?yàn)樵诩褐校S多輕量級(jí)智能體需要并發(fā)運(yùn)行——每個(gè)智能體生成計(jì)劃、檢查上下文或執(zhí)行基于工具的工作流。
![]()
▲Nemotron 3混合架構(gòu)。該模型將Mamba-2和MoE層與少量自注意力層交錯(cuò)排列,在保持最先進(jìn)準(zhǔn)確率的同時(shí),極大限度地提高了推理吞吐量。
Nemotron 3 Nano使用25T個(gè)token進(jìn)行訓(xùn)練,batch size為3072,并采用Warmup-Stable-Decay(WSD)學(xué)習(xí)率調(diào)度策略,其中包含8B個(gè)token的學(xué)習(xí)率預(yù)熱階段,峰值學(xué)習(xí)率為1e-3,最小學(xué)習(xí)率為1e-5。
模型共有52層,其中23層為MoE層,23層為Mamba-2層,其余6層使用分組查詢(xún)注意力機(jī)制(GQA),分為2個(gè)組。每個(gè)MoE層包含128個(gè)專(zhuān)家和1個(gè)共享專(zhuān)家,每個(gè)token激活6個(gè)專(zhuān)家。
該模型共有35億個(gè)活躍參數(shù)和300億個(gè)總參數(shù),支持英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)和日語(yǔ),使用Qwen進(jìn)行了改進(jìn)。
這一設(shè)計(jì)使其token吞吐量較Nemotron 2 Nano最高提升4倍,并減少了多達(dá)60%的推理token生成量,大大降低了推理成本。
![]()
▲Nemotron 3 Nano架構(gòu)
2、多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練
為了使Nemotron 3更貼近真實(shí)的智能體行為,英偉達(dá)使用一個(gè)用于構(gòu)建和擴(kuò)展強(qiáng)化學(xué)習(xí)環(huán)境的開(kāi)源庫(kù)NeMo Gym在多種環(huán)境中對(duì)模型進(jìn)行后訓(xùn)練。這些環(huán)境評(píng)估模型執(zhí)行一系列動(dòng)作的能力。
這種基于軌跡的強(qiáng)化訓(xùn)練方法能夠生成在多步驟工作流程中表現(xiàn)可靠的模型,減少推理漂移,并處理智能體管道中常見(jiàn)的各種結(jié)構(gòu)化操作。
這些環(huán)境和強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,連同NeMo Gym,都是開(kāi)源的。開(kāi)發(fā)者可在為特定領(lǐng)域任務(wù)定制模型時(shí),重用、擴(kuò)展甚至創(chuàng)建自己的環(huán)境。
3、100萬(wàn)token上下文長(zhǎng)度
Nemotron 3的百萬(wàn)級(jí)上下文容量,具有更強(qiáng)的記憶能力,在處理長(zhǎng)時(shí)間多步驟任務(wù)時(shí)能更精準(zhǔn)地關(guān)聯(lián)信息,支持對(duì)大型代碼庫(kù)、長(zhǎng)文檔、擴(kuò)展對(duì)話(huà)和聚合檢索內(nèi)容進(jìn)行持續(xù)推理。
智能體不再依賴(lài)碎片化的分塊啟發(fā)式方法,而是可以將完整的證據(jù)集、歷史緩沖區(qū)和多階段計(jì)劃保存在單個(gè)上下文窗口中。
其混合Mamba-Transformer架構(gòu)能夠高效地處理超大型序列,實(shí)現(xiàn)長(zhǎng)上下文窗口。MoE路由也降低了每個(gè)token的計(jì)算量,使得在推理時(shí)處理這些大型序列成為可能。
不過(guò)由于Hugging Face配置中VRAM要求較高,默認(rèn)上下文大小為256k。
4、潛在MoE(latent MoE)
Nemotron 3 Super和Ultra引入了潛在MoE,其中專(zhuān)家在將輸出投影回token空間之前,先對(duì)共享的潛在表示進(jìn)行操作。
這種方法使得模型能夠在相同的推理成本下調(diào)用4倍的專(zhuān)家,從而更好地針對(duì)微妙的語(yǔ)義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式進(jìn)行專(zhuān)門(mén)化。
![]()
▲標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對(duì)比。在潛在MoE中,token被投影到更小的潛在維度進(jìn)行專(zhuān)家路由和計(jì)算,從而降低通信成本,同時(shí)支持更多專(zhuān)家并提高每字節(jié)的準(zhǔn)確率。
5、多token預(yù)測(cè)(MTP)
MTP使模型能夠在一次前向傳播中預(yù)測(cè)多個(gè)未來(lái)token,顯著提高長(zhǎng)推理序列和結(jié)構(gòu)化輸出的吞吐量。
對(duì)于規(guī)劃、軌跡生成、擴(kuò)展思維鏈或代碼生成,MTP可降低延遲并提高智能體的響應(yīng)速度。
![]()
▲多token預(yù)測(cè),同時(shí)預(yù)測(cè)多個(gè)未來(lái)token,在訓(xùn)練期間將準(zhǔn)確率提高約2.4%,同時(shí)在推理時(shí)實(shí)現(xiàn)推測(cè)性解碼速度的提升。
6、NVFP4訓(xùn)練
Super和Ultra模型均采用NVFP4格式進(jìn)行預(yù)訓(xùn)練。NVFP4是英偉達(dá)的4位浮點(diǎn)格式,可在訓(xùn)練和推理方面提供一流的成本精度比,可顯著降低顯存需求并加速訓(xùn)練進(jìn)程。
英偉達(dá)為Nemotron 3設(shè)計(jì)了更新的NVFP4算法,以確保在其25T token預(yù)訓(xùn)練數(shù)據(jù)集上實(shí)現(xiàn)準(zhǔn)確穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練期間的大部分浮點(diǎn)乘加運(yùn)算均采用NVFP4格式。
這種效率使更大規(guī)模模型能在現(xiàn)有基礎(chǔ)設(shè)施上進(jìn)行訓(xùn)練,不會(huì)因更高精度格式而犧牲準(zhǔn)確性。
三、推出全新開(kāi)放工具與數(shù)據(jù),用于AI智能體定制
NVIDIA還發(fā)布了面向?qū)I(yè)AI智能體開(kāi)發(fā)者的訓(xùn)練數(shù)據(jù)集與前沿強(qiáng)化學(xué)習(xí)庫(kù)集合,以前所未有的透明度展現(xiàn)了高性能、可信賴(lài)的模型是如何構(gòu)建的。
3萬(wàn)億token規(guī)模的全新Nemotron預(yù)訓(xùn)練、后訓(xùn)練及強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,為開(kāi)發(fā)高性能特定領(lǐng)域智能體提供了豐富的推理、編碼及多步驟工作流范例。
Nemotron Agentic Safety數(shù)據(jù)集則提供真實(shí)場(chǎng)景的遙測(cè)數(shù)據(jù),幫助團(tuán)隊(duì)評(píng)估并提升復(fù)雜智能體系統(tǒng)的安全性。
新數(shù)據(jù)集亮點(diǎn)包括:
- Nemotron預(yù)訓(xùn)練3萬(wàn)億個(gè)token的數(shù)據(jù)集,對(duì)代碼、數(shù)學(xué)和推理的覆蓋范圍更廣,并通過(guò)合成增強(qiáng)和標(biāo)注管道得到增強(qiáng)。
- Nemotron后訓(xùn)練3.0:包含1300萬(wàn)個(gè)樣本的語(yǔ)料庫(kù),用于監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),為 Nemotron 3 Nano的對(duì)齊和推理提供支持。
- Nemotron-RL數(shù)據(jù)集:精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集和環(huán)境集合,用于工具使用、規(guī)劃和多步驟推理。
- Nemotron智能體安全數(shù)據(jù)集:包含近11000個(gè)AI智能體工作流程軌跡的集合,旨在幫助研究人員評(píng)估和減輕智能體系統(tǒng)中新出現(xiàn)的安全風(fēng)險(xiǎn)。
為加速開(kāi)發(fā)進(jìn)程,英偉達(dá)發(fā)布了NeMo Gym與NeMo RL開(kāi)源庫(kù),為Nemotron模型提供訓(xùn)練環(huán)境及后訓(xùn)練基礎(chǔ),同時(shí)還推出用于驗(yàn)證模型安全性和性能的NeMo Evaluator。
結(jié)合英偉達(dá)NeMo Gym、RL、Data Designer和Evaluator等開(kāi)源庫(kù),上述開(kāi)源數(shù)據(jù)集使開(kāi)發(fā)者能夠訓(xùn)練、增強(qiáng)和評(píng)估他們自己的Nemotron模型。
這些工具及數(shù)據(jù)集已上線(xiàn)GitHub和Hugging Face平臺(tái)。
Nemotron 3已獲得LM Studio、llama.cpp、SGLang和vLLM支持。此外,Prime Intellect與Unsloth正將NeMo Gym的即用型訓(xùn)練環(huán)境直接集成至其工作流,使團(tuán)隊(duì)能夠更加快速、便捷地獲得強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練能力。
同時(shí),英偉達(dá)維護(hù)著一個(gè)開(kāi)源的Nemotron GitHub代碼庫(kù),其中包括:
- 預(yù)訓(xùn)練方案(已提供)展示了Nemotron 3 Nano的訓(xùn)練方式;
- 用于多環(huán)境優(yōu)化的強(qiáng)化學(xué)習(xí)對(duì)齊方法;
- 數(shù)據(jù)處理流程、分詞器配置和長(zhǎng)上下文設(shè)置;
- 未來(lái)的更新將包括更多訓(xùn)練后調(diào)整和微調(diào)的配方。
GitHub存儲(chǔ)庫(kù)提供了文檔、配置和工具,可端到端地重現(xiàn)關(guān)鍵步驟。
使用英偉達(dá)的開(kāi)放資源,用戶(hù)可以運(yùn)行模型、部署模型、檢查模型的構(gòu)建方式,以及訓(xùn)練自己的模型。
四、四個(gè)階段訓(xùn)練方法公開(kāi)
英偉達(dá)已披露NVIDIA-Nemotron-3-Nano-30B-A3B-BF16模型的訓(xùn)練方法。
該模型使用英語(yǔ)以及其他19種語(yǔ)言和43種編程語(yǔ)言進(jìn)行訓(xùn)練。其數(shù)據(jù)源涵蓋多種文檔類(lèi)型,如網(wǎng)頁(yè)、對(duì)話(huà)、文章和其他書(shū)面材料,語(yǔ)料庫(kù)涉及法律、數(shù)學(xué)、科學(xué)、金融等多個(gè)領(lǐng)域。
為了提高模型準(zhǔn)確率,英偉達(dá)還加入了一小部分問(wèn)答和對(duì)齊類(lèi)型的數(shù)據(jù)。該模型使用約25萬(wàn)億個(gè)token進(jìn)行訓(xùn)練。
該模型的的后訓(xùn)練語(yǔ)料庫(kù)包含高質(zhì)量的精選數(shù)據(jù)和合成數(shù)據(jù)。后訓(xùn)練使用的主要語(yǔ)言包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)和日語(yǔ)。
第一階段:預(yù)訓(xùn)練
NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16模型使用爬取和合成的代碼、數(shù)學(xué)、科學(xué)和通用知識(shí)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。所有數(shù)據(jù)集均在Hugging Face上披露。預(yù)訓(xùn)練語(yǔ)料庫(kù)的大部分已發(fā)布在Nemotron-Pre-Training-Datasets數(shù)據(jù)集中。
預(yù)訓(xùn)練所用軟件:Megatron-LM
第二階段:監(jiān)督式微調(diào)
該模型在合成代碼、數(shù)學(xué)、科學(xué)、工具調(diào)用、指令執(zhí)行、結(jié)構(gòu)化輸出和通用知識(shí)數(shù)據(jù)上進(jìn)行了進(jìn)一步的微調(diào)。所有數(shù)據(jù)集均已公開(kāi)。微調(diào)語(yǔ)料庫(kù)的主要部分已發(fā)布在Nemotron-Post-Training-v3數(shù)據(jù)集中。
用于監(jiān)督式微調(diào)的軟件:Megatron-LM
第三階段:強(qiáng)化學(xué)習(xí)
該模型在數(shù)學(xué)、代碼、科學(xué)、指令跟隨、多步驟工具使用、多輪對(duì)話(huà)和結(jié)構(gòu)化輸出等多種環(huán)境下,采用同步GRPO(群體相對(duì)策略?xún)?yōu)化)進(jìn)行多環(huán)境強(qiáng)化學(xué)習(xí)。對(duì)話(huà)質(zhì)量通過(guò)使用生成式獎(jiǎng)勵(lì)模型的RLHF進(jìn)一步提升。
所有數(shù)據(jù)集均在本文檔的“訓(xùn)練、測(cè)試和評(píng)估數(shù)據(jù)集”部分中公開(kāi)。強(qiáng)化學(xué)習(xí)環(huán)境和數(shù)據(jù)集已作為NeMo Gym的一部分發(fā)布。
用于強(qiáng)化學(xué)習(xí)的軟件:NeMo RL、NeMo Gym
第四階段:訓(xùn)練后量化
包含KV緩存的模型被量化為FP8。為了在提高效率的同時(shí)保持準(zhǔn)確性,英偉達(dá)采用了選擇性量化策略,將注意力層和輸入到這些注意力層的Mamba層保留為BF16。
用于量化的軟件:模型優(yōu)化器
NVIDIA-Nemotron-3-Nano-30B-A3B-FP8模型是上述工作的成果。完整的端到端訓(xùn)練方案可在NVIDIA Nemotron開(kāi)發(fā)者代碼庫(kù)中找到。評(píng)估結(jié)果可使用NeMo Evaluator SDK進(jìn)行復(fù)現(xiàn)。
結(jié)語(yǔ):瞄準(zhǔn)多智能體系統(tǒng),追求透明與高效
“開(kāi)放創(chuàng)新是AI進(jìn)步的基礎(chǔ)。通過(guò)Nemotron,我們將先進(jìn)AI轉(zhuǎn)化成開(kāi)放平臺(tái),為開(kāi)發(fā)者提供構(gòu)建大規(guī)模代理式系統(tǒng)所需的透明度與效率。”英偉達(dá)創(chuàng)始人兼CEO黃仁勛說(shuō)。
隨著企業(yè)從單模型對(duì)話(huà)機(jī)器人轉(zhuǎn)向協(xié)作式多智能體AI系統(tǒng),開(kāi)發(fā)者面臨通信開(kāi)銷(xiāo)、上下文漂移和高推理成本等挑戰(zhàn)。此外,開(kāi)發(fā)者需要模型具備透明度,才能信任其用于自動(dòng)化復(fù)雜工作流。
Nemotron 3開(kāi)放模型則直面這些挑戰(zhàn),提供開(kāi)發(fā)專(zhuān)業(yè)化代理式AI所需的性能與開(kāi)放性,使初創(chuàng)公司能夠更快開(kāi)發(fā)和迭代AI智能體,并加快從原型到企業(yè)級(jí)部署的創(chuàng)新進(jìn)程。
單一工作流中,在前沿模型與Nemotron之間進(jìn)行任務(wù)路由,不僅能提供更強(qiáng)大的智能體,還可以?xún)?yōu)化token經(jīng)濟(jì)效益。
英偉達(dá)不僅僅是把目光放在單個(gè)模型上,而是押注于更龐大的智能體系統(tǒng)。要能對(duì)這些系統(tǒng)委以信任,開(kāi)放、透明、可檢查的基礎(chǔ)架構(gòu)至關(guān)重要。
Mayfield管理合伙人Navin Chaddha認(rèn)為,英偉達(dá)的開(kāi)放模型堆棧與NVIDIA初創(chuàng)加速計(jì)劃為初創(chuàng)公司提供了各類(lèi)模型、工具及經(jīng)濟(jì)高效的基礎(chǔ)設(shè)施,助力其開(kāi)展試驗(yàn)、實(shí)現(xiàn)差異化發(fā)展并快速擴(kuò)展規(guī)模。Nemotron 3可以讓創(chuàng)始人在構(gòu)建代理式AI應(yīng)用和AI隊(duì)友方面取得先機(jī),并幫助他們利用NVIDIA龐大的用戶(hù)基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.