網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)開(kāi)源3款新推理模型，收購(gòu)1家AI公司

2025-12-16 11:45:16　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者 ZeR0
編輯漠影

智東西12月16日?qǐng)?bào)道，今日，英偉達(dá)推出了NVIDIA Nemotron 3系列開(kāi)放模型、數(shù)據(jù)和庫(kù)，并公布Nemotron 3 Nano模型的技術(shù)報(bào)告。

Nemotron 3模型包括Nano、Super、Ultra三種規(guī)模，可幫助大規(guī)模開(kāi)發(fā)并部署可靠的多智能體系統(tǒng)，實(shí)現(xiàn)快速、長(zhǎng)上下文推理。

Nemotron 3 Nano：擁有300億參數(shù)的小型模型，每次運(yùn)行最多激活30億參數(shù)，適用于針對(duì)性、高效的任務(wù)，主打高計(jì)算成本效益，展現(xiàn)了增強(qiáng)的智能體、推理和聊天能力，針對(duì)軟件調(diào)試、內(nèi)容摘要、AI助手工作流及信息檢索等任務(wù)進(jìn)行了優(yōu)化。
Nemotron 3 Super：擁有約1000億參數(shù)的高精度推理模型，每個(gè)token最多激活100億參數(shù)，適用于多智能體應(yīng)用，在需要多智能體協(xié)作完成低延遲復(fù)雜任務(wù)的應(yīng)用中表現(xiàn)出色。
Nemotron 3 Ultra：擁有約5000億參數(shù)的大型推理引擎，每個(gè)token最多激活500億參數(shù)，適用于復(fù)雜的AI應(yīng)用，可服務(wù)于需要深度研究和策略規(guī)劃的AI工作流。

Nemotron 3系列模型引入了混合Mamba-Transformer MoE架構(gòu)、跨交互式環(huán)境的強(qiáng)化學(xué)習(xí)、原生100萬(wàn)個(gè)token的上下文窗口，為多智能體應(yīng)用實(shí)現(xiàn)高吞吐量、長(zhǎng)時(shí)域推理。

該模型引入了多項(xiàng)創(chuàng)新，直接滿(mǎn)足了智能體系統(tǒng)的需求：

采用混合Mamba-Transformer MoE主干網(wǎng)，實(shí)現(xiàn)卓越的測(cè)試時(shí)間效率和長(zhǎng)距離推理能力。
圍繞真實(shí)世界的智能體任務(wù)設(shè)計(jì)的多環(huán)境強(qiáng)化學(xué)習(xí)。
支持深度多文檔推理和長(zhǎng)時(shí)間運(yùn)行的智能體記憶的100萬(wàn)個(gè)token上下文長(zhǎng)度。
一個(gè)開(kāi)放、透明的訓(xùn)練流程，包括數(shù)據(jù)、權(quán)重和配方。

根據(jù)技術(shù)報(bào)告，相比類(lèi)似參數(shù)規(guī)模的開(kāi)放模型（如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507），Nemotron 3 Nano實(shí)現(xiàn)了多達(dá)3.3倍的推理吞吐量。

Nemotron 3 Nano已上線(xiàn)Hugging Face平臺(tái)，并通過(guò)Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI等推理服務(wù)商提供。

Hugging Face地址：huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Nemotron 3 Nano體驗(yàn)地址：build.nvidia.com/nvidia/nemotron-3-nano-30b-a3b

Nemotron 3 Super和Ultra預(yù)計(jì)將于2026年上半年推出。這兩款模型采用了基于NVIDIA Blackwell架構(gòu)的超高效4位NVFP4訓(xùn)練格式和創(chuàng)新的潛在MoE架構(gòu)，可顯著降低顯存需求，加速訓(xùn)練進(jìn)程，提高模型質(zhì)量。

這兩款更高性能模型，將是明年開(kāi)源社區(qū)期待的重點(diǎn)產(chǎn)品。

除了整套前沿開(kāi)放模型外，英偉達(dá)還發(fā)布了面向?qū)I(yè)AI智能體開(kāi)發(fā)者的訓(xùn)練數(shù)據(jù)集與前沿強(qiáng)化學(xué)習(xí)庫(kù)集合，多方位助力構(gòu)建高精度、高效的專(zhuān)業(yè)AI智能體。

值得關(guān)注的是，英偉達(dá)并不只是追求基準(zhǔn)測(cè)試成績(jī)，而是通過(guò)開(kāi)源開(kāi)放，將訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)環(huán)境、訓(xùn)練代碼等傾囊放出，希望更多開(kāi)發(fā)者得以利用更優(yōu)質(zhì)的數(shù)據(jù)構(gòu)建更好的模型，大幅降低開(kāi)發(fā)門(mén)檻。

Nemotron 3模型權(quán)重根據(jù)英偉達(dá)開(kāi)放模型許可協(xié)議公開(kāi)發(fā)布。英偉達(dá)的合成預(yù)訓(xùn)練語(yǔ)料庫(kù)（近10萬(wàn)億個(gè)token）可供查閱或重新利用。開(kāi)發(fā)者還可以訪(fǎng)問(wèn)Nemotron GitHub代碼庫(kù)中的詳細(xì)訓(xùn)練和訓(xùn)練后處理方案，從而實(shí)現(xiàn)完全的可復(fù)現(xiàn)性和自定義性。

此外，英偉達(dá)今日宣布收購(gòu)AI開(kāi)源工作負(fù)載管理系統(tǒng)提供商SchedMD。SchedMD由Slurm軟件開(kāi)發(fā)人員Morris “Moe” Jette和Danny Auble于2010年在美國(guó)加州利弗莫爾創(chuàng)立。其提供開(kāi)源的Slurm技術(shù)，可幫助安排可能占用數(shù)據(jù)中心服務(wù)器容量很大一部分的大型計(jì)算作業(yè)。

英偉達(dá)稱(chēng)將繼續(xù)以開(kāi)源方式分發(fā)SchedMD的軟件，英偉達(dá)與SchedMD聯(lián)手正在加強(qiáng)開(kāi)源軟件生態(tài)系統(tǒng)，以促進(jìn)各行各業(yè)、各個(gè)規(guī)模的高性能計(jì)算和AI創(chuàng)新。

一、多項(xiàng)基準(zhǔn)測(cè)試分?jǐn)?shù)超30B Qwen3和20B GPT-OSS

Nemotron 3系列的首款產(chǎn)品Nemotron 3 Nano，專(zhuān)為DGX Spark、H100和B200 GPU設(shè)計(jì)，實(shí)現(xiàn)了高吞吐量效率。

獨(dú)立AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis評(píng)定該模型為同等規(guī)模模型中兼具極高開(kāi)放性和效率及高精度的模型。

根據(jù)Nemotron 3 Nano技術(shù)報(bào)告，相比相似規(guī)模的Qwen3-30B-A3B-Thinking-2507和GPT-OSS-20B模型，Nemotron 3 Nano在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了同等或更好的精度。

在大多數(shù)通用知識(shí)、代碼、數(shù)學(xué)、常識(shí)理解，閱讀理解，多語(yǔ)言和長(zhǎng)上下文基準(zhǔn)中，Nemotron 3 Nano均取得了高于Qwen3-30B-A3B-Base模型的分?jǐn)?shù)。

在數(shù)學(xué)和科學(xué)推理、編程、智能體工具使用、指令遵循、長(zhǎng)期上下文理解和多語(yǔ)言能力等綜合性能評(píng)估中，Nemotron 3 Nano在所有類(lèi)別均超過(guò)了GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507。

在推理基準(zhǔn)上，Nemotron 3 Nano超過(guò)了Qwen3模型，并與之前在這些類(lèi)別中最好的模型GPT-OSS比肩。在智能體、聊天和長(zhǎng)上下文類(lèi)別中，Nemotron 3 Nano顯著優(yōu)于其他兩種模型。

Nemotron系列模型的早期用戶(hù)包括埃森哲、Cadence、CrowdStrike、Cursor、德勤、安永、Oracle Cloud Infrastructure、Perplexity、ServiceNow、西門(mén)子、新思科技和Zoom。他們正將Nemotron系列模型集成到制造、網(wǎng)絡(luò)安全、軟件開(kāi)發(fā)、媒體、通信等行業(yè)的AI工作流中。

該模型已上線(xiàn)多個(gè)企業(yè)級(jí)AI與數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)，包括Couchbase、DataRobot、H2O.ai、JFrog、Lambda及UiPath。

此外，Nemotron 3 Nano將通過(guò)Amazon Bedrock（無(wú)服務(wù)器模式）在亞馬遜云科技（AWS）平臺(tái)上提供給使用公有云的客戶(hù)，并且也即將支持Google Cloud、Coreweave、Crusoe、Microsoft Foundry、Nebius、Nscale及Yotta。

Nemotron 3 Nano同時(shí)以NVIDIA NIM形式提供，可在NVIDIA加速基礎(chǔ)設(shè)施上進(jìn)行安全、可擴(kuò)展的部署，具有極高的隱私性與可控性。

二、混合Mamba-Transformer、多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練、4位NVFP4訓(xùn)練

英偉達(dá)意在打造出更實(shí)用的模型，這在其模型設(shè)計(jì)中可見(jiàn)一斑。

1、混合Mamba-Transformer

Nemotron 3將三種架構(gòu)集成到一個(gè)單一的主干網(wǎng)中：

用于高效序列建模的Mamba層；
用于精確推理的Transformer層；
MoE路由實(shí)現(xiàn)可擴(kuò)展的計(jì)算效率。

Mamba擅長(zhǎng)以最小的內(nèi)存開(kāi)銷(xiāo)跟蹤長(zhǎng)距離依賴(lài)關(guān)系，即使處理數(shù)十萬(wàn)個(gè)token也能保持持續(xù)的性能。Transformer層通過(guò)精細(xì)的注意力機(jī)制對(duì)此進(jìn)行補(bǔ)充，這些機(jī)制可以捕獲代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)和邏輯關(guān)系。

MoE組件在不增加密集計(jì)算成本的情況下，顯著提升了有效參數(shù)數(shù)量。每個(gè)token僅激活一部分專(zhuān)家，從而降低延遲并提高吞吐量。這種架構(gòu)尤其適用于智能體集群，因?yàn)樵诩褐校S多輕量級(jí)智能體需要并發(fā)運(yùn)行——每個(gè)智能體生成計(jì)劃、檢查上下文或執(zhí)行基于工具的工作流。

▲Nemotron 3混合架構(gòu)。該模型將Mamba-2和MoE層與少量自注意力層交錯(cuò)排列，在保持最先進(jìn)準(zhǔn)確率的同時(shí)，極大限度地提高了推理吞吐量。

Nemotron 3 Nano使用25T個(gè)token進(jìn)行訓(xùn)練，batch size為3072，并采用Warmup-Stable-Decay（WSD）學(xué)習(xí)率調(diào)度策略，其中包含8B個(gè)token的學(xué)習(xí)率預(yù)熱階段，峰值學(xué)習(xí)率為1e-3，最小學(xué)習(xí)率為1e-5。

模型共有52層，其中23層為MoE層，23層為Mamba-2層，其余6層使用分組查詢(xún)注意力機(jī)制（GQA），分為2個(gè)組。每個(gè)MoE層包含128個(gè)專(zhuān)家和1個(gè)共享專(zhuān)家，每個(gè)token激活6個(gè)專(zhuān)家。

該模型共有35億個(gè)活躍參數(shù)和300億個(gè)總參數(shù)，支持英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)和日語(yǔ)，使用Qwen進(jìn)行了改進(jìn)。

這一設(shè)計(jì)使其token吞吐量較Nemotron 2 Nano最高提升4倍，并減少了多達(dá)60%的推理token生成量，大大降低了推理成本。

▲Nemotron 3 Nano架構(gòu)

2、多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練

為了使Nemotron 3更貼近真實(shí)的智能體行為，英偉達(dá)使用一個(gè)用于構(gòu)建和擴(kuò)展強(qiáng)化學(xué)習(xí)環(huán)境的開(kāi)源庫(kù)NeMo Gym在多種環(huán)境中對(duì)模型進(jìn)行后訓(xùn)練。這些環(huán)境評(píng)估模型執(zhí)行一系列動(dòng)作的能力。

這種基于軌跡的強(qiáng)化訓(xùn)練方法能夠生成在多步驟工作流程中表現(xiàn)可靠的模型，減少推理漂移，并處理智能體管道中常見(jiàn)的各種結(jié)構(gòu)化操作。

這些環(huán)境和強(qiáng)化學(xué)習(xí)數(shù)據(jù)集，連同NeMo Gym，都是開(kāi)源的。開(kāi)發(fā)者可在為特定領(lǐng)域任務(wù)定制模型時(shí)，重用、擴(kuò)展甚至創(chuàng)建自己的環(huán)境。

3、100萬(wàn)token上下文長(zhǎng)度

Nemotron 3的百萬(wàn)級(jí)上下文容量，具有更強(qiáng)的記憶能力，在處理長(zhǎng)時(shí)間多步驟任務(wù)時(shí)能更精準(zhǔn)地關(guān)聯(lián)信息，支持對(duì)大型代碼庫(kù)、長(zhǎng)文檔、擴(kuò)展對(duì)話(huà)和聚合檢索內(nèi)容進(jìn)行持續(xù)推理。

智能體不再依賴(lài)碎片化的分塊啟發(fā)式方法，而是可以將完整的證據(jù)集、歷史緩沖區(qū)和多階段計(jì)劃保存在單個(gè)上下文窗口中。

其混合Mamba-Transformer架構(gòu)能夠高效地處理超大型序列，實(shí)現(xiàn)長(zhǎng)上下文窗口。MoE路由也降低了每個(gè)token的計(jì)算量，使得在推理時(shí)處理這些大型序列成為可能。

不過(guò)由于Hugging Face配置中VRAM要求較高，默認(rèn)上下文大小為256k。

4、潛在MoE（latent MoE）

Nemotron 3 Super和Ultra引入了潛在MoE，其中專(zhuān)家在將輸出投影回token空間之前，先對(duì)共享的潛在表示進(jìn)行操作。

這種方法使得模型能夠在相同的推理成本下調(diào)用4倍的專(zhuān)家，從而更好地針對(duì)微妙的語(yǔ)義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式進(jìn)行專(zhuān)門(mén)化。

▲標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對(duì)比。在潛在MoE中，token被投影到更小的潛在維度進(jìn)行專(zhuān)家路由和計(jì)算，從而降低通信成本，同時(shí)支持更多專(zhuān)家并提高每字節(jié)的準(zhǔn)確率。

5、多token預(yù)測(cè)（MTP）

MTP使模型能夠在一次前向傳播中預(yù)測(cè)多個(gè)未來(lái)token，顯著提高長(zhǎng)推理序列和結(jié)構(gòu)化輸出的吞吐量。

對(duì)于規(guī)劃、軌跡生成、擴(kuò)展思維鏈或代碼生成，MTP可降低延遲并提高智能體的響應(yīng)速度。

▲多token預(yù)測(cè)，同時(shí)預(yù)測(cè)多個(gè)未來(lái)token，在訓(xùn)練期間將準(zhǔn)確率提高約2.4%，同時(shí)在推理時(shí)實(shí)現(xiàn)推測(cè)性解碼速度的提升。

6、NVFP4訓(xùn)練

Super和Ultra模型均采用NVFP4格式進(jìn)行預(yù)訓(xùn)練。NVFP4是英偉達(dá)的4位浮點(diǎn)格式，可在訓(xùn)練和推理方面提供一流的成本精度比，可顯著降低顯存需求并加速訓(xùn)練進(jìn)程。

英偉達(dá)為Nemotron 3設(shè)計(jì)了更新的NVFP4算法，以確保在其25T token預(yù)訓(xùn)練數(shù)據(jù)集上實(shí)現(xiàn)準(zhǔn)確穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練期間的大部分浮點(diǎn)乘加運(yùn)算均采用NVFP4格式。

這種效率使更大規(guī)模模型能在現(xiàn)有基礎(chǔ)設(shè)施上進(jìn)行訓(xùn)練，不會(huì)因更高精度格式而犧牲準(zhǔn)確性。

三、推出全新開(kāi)放工具與數(shù)據(jù)，用于AI智能體定制

NVIDIA還發(fā)布了面向?qū)I(yè)AI智能體開(kāi)發(fā)者的訓(xùn)練數(shù)據(jù)集與前沿強(qiáng)化學(xué)習(xí)庫(kù)集合，以前所未有的透明度展現(xiàn)了高性能、可信賴(lài)的模型是如何構(gòu)建的。

3萬(wàn)億token規(guī)模的全新Nemotron預(yù)訓(xùn)練、后訓(xùn)練及強(qiáng)化學(xué)習(xí)數(shù)據(jù)集，為開(kāi)發(fā)高性能特定領(lǐng)域智能體提供了豐富的推理、編碼及多步驟工作流范例。

Nemotron Agentic Safety數(shù)據(jù)集則提供真實(shí)場(chǎng)景的遙測(cè)數(shù)據(jù)，幫助團(tuán)隊(duì)評(píng)估并提升復(fù)雜智能體系統(tǒng)的安全性。

新數(shù)據(jù)集亮點(diǎn)包括：

Nemotron預(yù)訓(xùn)練3萬(wàn)億個(gè)token的數(shù)據(jù)集，對(duì)代碼、數(shù)學(xué)和推理的覆蓋范圍更廣，并通過(guò)合成增強(qiáng)和標(biāo)注管道得到增強(qiáng)。
Nemotron后訓(xùn)練3.0：包含1300萬(wàn)個(gè)樣本的語(yǔ)料庫(kù)，用于監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)，為 Nemotron 3 Nano的對(duì)齊和推理提供支持。
Nemotron-RL數(shù)據(jù)集：精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集和環(huán)境集合，用于工具使用、規(guī)劃和多步驟推理。
Nemotron智能體安全數(shù)據(jù)集：包含近11000個(gè)AI智能體工作流程軌跡的集合，旨在幫助研究人員評(píng)估和減輕智能體系統(tǒng)中新出現(xiàn)的安全風(fēng)險(xiǎn)。

為加速開(kāi)發(fā)進(jìn)程，英偉達(dá)發(fā)布了NeMo Gym與NeMo RL開(kāi)源庫(kù)，為Nemotron模型提供訓(xùn)練環(huán)境及后訓(xùn)練基礎(chǔ)，同時(shí)還推出用于驗(yàn)證模型安全性和性能的NeMo Evaluator。

結(jié)合英偉達(dá)NeMo Gym、RL、Data Designer和Evaluator等開(kāi)源庫(kù)，上述開(kāi)源數(shù)據(jù)集使開(kāi)發(fā)者能夠訓(xùn)練、增強(qiáng)和評(píng)估他們自己的Nemotron模型。

這些工具及數(shù)據(jù)集已上線(xiàn)GitHub和Hugging Face平臺(tái)。

Nemotron 3已獲得LM Studio、llama.cpp、SGLang和vLLM支持。此外，Prime Intellect與Unsloth正將NeMo Gym的即用型訓(xùn)練環(huán)境直接集成至其工作流，使團(tuán)隊(duì)能夠更加快速、便捷地獲得強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練能力。

同時(shí)，英偉達(dá)維護(hù)著一個(gè)開(kāi)源的Nemotron GitHub代碼庫(kù)，其中包括：

預(yù)訓(xùn)練方案（已提供）展示了Nemotron 3 Nano的訓(xùn)練方式；
用于多環(huán)境優(yōu)化的強(qiáng)化學(xué)習(xí)對(duì)齊方法；
數(shù)據(jù)處理流程、分詞器配置和長(zhǎng)上下文設(shè)置；
未來(lái)的更新將包括更多訓(xùn)練后調(diào)整和微調(diào)的配方。

GitHub存儲(chǔ)庫(kù)提供了文檔、配置和工具，可端到端地重現(xiàn)關(guān)鍵步驟。

使用英偉達(dá)的開(kāi)放資源，用戶(hù)可以運(yùn)行模型、部署模型、檢查模型的構(gòu)建方式，以及訓(xùn)練自己的模型。

四、四個(gè)階段訓(xùn)練方法公開(kāi)

英偉達(dá)已披露NVIDIA-Nemotron-3-Nano-30B-A3B-BF16模型的訓(xùn)練方法。

該模型使用英語(yǔ)以及其他19種語(yǔ)言和43種編程語(yǔ)言進(jìn)行訓(xùn)練。其數(shù)據(jù)源涵蓋多種文檔類(lèi)型，如網(wǎng)頁(yè)、對(duì)話(huà)、文章和其他書(shū)面材料，語(yǔ)料庫(kù)涉及法律、數(shù)學(xué)、科學(xué)、金融等多個(gè)領(lǐng)域。

為了提高模型準(zhǔn)確率，英偉達(dá)還加入了一小部分問(wèn)答和對(duì)齊類(lèi)型的數(shù)據(jù)。該模型使用約25萬(wàn)億個(gè)token進(jìn)行訓(xùn)練。

該模型的的后訓(xùn)練語(yǔ)料庫(kù)包含高質(zhì)量的精選數(shù)據(jù)和合成數(shù)據(jù)。后訓(xùn)練使用的主要語(yǔ)言包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)和日語(yǔ)。

第一階段：預(yù)訓(xùn)練

NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16模型使用爬取和合成的代碼、數(shù)學(xué)、科學(xué)和通用知識(shí)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。所有數(shù)據(jù)集均在Hugging Face上披露。預(yù)訓(xùn)練語(yǔ)料庫(kù)的大部分已發(fā)布在Nemotron-Pre-Training-Datasets數(shù)據(jù)集中。

預(yù)訓(xùn)練所用軟件：Megatron-LM

第二階段：監(jiān)督式微調(diào)

該模型在合成代碼、數(shù)學(xué)、科學(xué)、工具調(diào)用、指令執(zhí)行、結(jié)構(gòu)化輸出和通用知識(shí)數(shù)據(jù)上進(jìn)行了進(jìn)一步的微調(diào)。所有數(shù)據(jù)集均已公開(kāi)。微調(diào)語(yǔ)料庫(kù)的主要部分已發(fā)布在Nemotron-Post-Training-v3數(shù)據(jù)集中。

用于監(jiān)督式微調(diào)的軟件：Megatron-LM

第三階段：強(qiáng)化學(xué)習(xí)

該模型在數(shù)學(xué)、代碼、科學(xué)、指令跟隨、多步驟工具使用、多輪對(duì)話(huà)和結(jié)構(gòu)化輸出等多種環(huán)境下，采用同步GRPO（群體相對(duì)策略?xún)?yōu)化）進(jìn)行多環(huán)境強(qiáng)化學(xué)習(xí)。對(duì)話(huà)質(zhì)量通過(guò)使用生成式獎(jiǎng)勵(lì)模型的RLHF進(jìn)一步提升。

所有數(shù)據(jù)集均在本文檔的“訓(xùn)練、測(cè)試和評(píng)估數(shù)據(jù)集”部分中公開(kāi)。強(qiáng)化學(xué)習(xí)環(huán)境和數(shù)據(jù)集已作為NeMo Gym的一部分發(fā)布。

用于強(qiáng)化學(xué)習(xí)的軟件：NeMo RL、NeMo Gym

第四階段：訓(xùn)練后量化

包含KV緩存的模型被量化為FP8。為了在提高效率的同時(shí)保持準(zhǔn)確性，英偉達(dá)采用了選擇性量化策略，將注意力層和輸入到這些注意力層的Mamba層保留為BF16。

用于量化的軟件：模型優(yōu)化器

NVIDIA-Nemotron-3-Nano-30B-A3B-FP8模型是上述工作的成果。完整的端到端訓(xùn)練方案可在NVIDIA Nemotron開(kāi)發(fā)者代碼庫(kù)中找到。評(píng)估結(jié)果可使用NeMo Evaluator SDK進(jìn)行復(fù)現(xiàn)。

結(jié)語(yǔ)：瞄準(zhǔn)多智能體系統(tǒng)，追求透明與高效

“開(kāi)放創(chuàng)新是AI進(jìn)步的基礎(chǔ)。通過(guò)Nemotron，我們將先進(jìn)AI轉(zhuǎn)化成開(kāi)放平臺(tái)，為開(kāi)發(fā)者提供構(gòu)建大規(guī)模代理式系統(tǒng)所需的透明度與效率。”英偉達(dá)創(chuàng)始人兼CEO黃仁勛說(shuō)。

隨著企業(yè)從單模型對(duì)話(huà)機(jī)器人轉(zhuǎn)向協(xié)作式多智能體AI系統(tǒng)，開(kāi)發(fā)者面臨通信開(kāi)銷(xiāo)、上下文漂移和高推理成本等挑戰(zhàn)。此外，開(kāi)發(fā)者需要模型具備透明度，才能信任其用于自動(dòng)化復(fù)雜工作流。

Nemotron 3開(kāi)放模型則直面這些挑戰(zhàn)，提供開(kāi)發(fā)專(zhuān)業(yè)化代理式AI所需的性能與開(kāi)放性，使初創(chuàng)公司能夠更快開(kāi)發(fā)和迭代AI智能體，并加快從原型到企業(yè)級(jí)部署的創(chuàng)新進(jìn)程。

單一工作流中，在前沿模型與Nemotron之間進(jìn)行任務(wù)路由，不僅能提供更強(qiáng)大的智能體，還可以?xún)?yōu)化token經(jīng)濟(jì)效益。

英偉達(dá)不僅僅是把目光放在單個(gè)模型上，而是押注于更龐大的智能體系統(tǒng)。要能對(duì)這些系統(tǒng)委以信任，開(kāi)放、透明、可檢查的基礎(chǔ)架構(gòu)至關(guān)重要。

Mayfield管理合伙人Navin Chaddha認(rèn)為，英偉達(dá)的開(kāi)放模型堆棧與NVIDIA初創(chuàng)加速計(jì)劃為初創(chuàng)公司提供了各類(lèi)模型、工具及經(jīng)濟(jì)高效的基礎(chǔ)設(shè)施，助力其開(kāi)展試驗(yàn)、實(shí)現(xiàn)差異化發(fā)展并快速擴(kuò)展規(guī)模。Nemotron 3可以讓創(chuàng)始人在構(gòu)建代理式AI應(yīng)用和AI隊(duì)友方面取得先機(jī)，并幫助他們利用NVIDIA龐大的用戶(hù)基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.