![]()
作者 | 小小
出品 | 網(wǎng)易科技
CES 2026最具熱度的演講,無疑屬于英偉達(dá)創(chuàng)始人兼CEO黃仁勛。這位被業(yè)界稱為“黃衣教主”的業(yè)界領(lǐng)袖,定于美國時間1月5日下午1點(diǎn)開講,卻讓慕名而來的聽眾早早體驗(yàn)了“未來熱度”——網(wǎng)易科技上午11點(diǎn)到達(dá)時,場外排隊(duì)隊(duì)伍已蜿蜒近500米。有前來參會的中國KOL感嘆:“我們等的不僅是黃仁勛,更是在等一個答案:未來十年,人與機(jī)器將如何重新分工。而有些答案,似乎只在現(xiàn)場才能聽見。”
黃仁勛比預(yù)定時間晚了約十分鐘登上舞臺。他拋出核心判斷:“物理AI的‘ChatGPT時刻’,即將到來。”
黃仁勛指出,計(jì)算機(jī)行業(yè)正經(jīng)歷十年一遇的“平臺重置”:我們正從“編程軟件”時代跨入“訓(xùn)練軟件”時代,計(jì)算的基礎(chǔ)技術(shù)棧(所謂的“五層蛋糕”),每一層都在被重新發(fā)明。
2025年被黃仁勛定義為“智能體系統(tǒng)”普及的元年。AI不再僅僅是預(yù)先錄制的程序,而是具備推理、規(guī)劃、甚至在實(shí)時運(yùn)行中進(jìn)行“思考”的智能體。他特別致敬了中國開源模型DeepSeek R1的突破,認(rèn)為開源力量正讓AI變得無處不在,使智能不再拋下任何人。
![]()
黃仁勛演講的重頭戲在于“物理AI”。英偉達(dá)正致力于讓AI理解重力、慣性、因果關(guān)系等物理定律。為此,黃仁勛發(fā)布了世界首個會思考、會推理的自動駕駛AI——Alpamayo。它不僅能開車,還能像人類一樣解釋“為什么這么開”。這標(biāo)志著AI正式從屏幕后的對話框,走向現(xiàn)實(shí)世界的自動駕駛汽車與人形機(jī)器人。
![]()
面對AI計(jì)算量每年10倍的暴增,黃仁勛祭出了新一代架構(gòu)Rubin。這不僅是一顆芯片,而是包含Vera CPU、Rubin GPU、NVLink-6等六大核心組件的全棧革命。
黃仁勛強(qiáng)調(diào),英偉達(dá)的角色已從芯片供應(yīng)商轉(zhuǎn)變?yōu)椤叭珬I體系”的構(gòu)建者。通過開源模型、數(shù)據(jù)及NeMo開發(fā)庫,英偉達(dá)正通過“三臺計(jì)算機(jī)”(訓(xùn)練、推理、模擬)的架構(gòu),為全球提供構(gòu)建物理AI的底座。這場競賽不僅關(guān)乎速度,更關(guān)乎誰能以更低的成本、更高的能效,將人類文明帶入萬物皆有智能的新時代。
以下為黃仁勛2026 CES演講實(shí)錄(經(jīng)編輯略有修改,小標(biāo)題為后加):
一、時代定調(diào):兩大“平臺轉(zhuǎn)移”與AI的重塑之力
拉斯維加斯,新年快樂!歡迎來到CES。
大約每十到十五年,計(jì)算機(jī)行業(yè)就會經(jīng)歷一次重置。平臺會發(fā)生一次根本性的轉(zhuǎn)變,從大型機(jī)到個人電腦,再到互聯(lián)網(wǎng)、云計(jì)算、移動設(shè)備。每一次,應(yīng)用生態(tài)都會瞄準(zhǔn)一個新的平臺,這就是所謂的“平臺轉(zhuǎn)移”。每次,你都要為新的計(jì)算平臺編寫新的應(yīng)用程序。但這一次,事實(shí)上,有兩個平臺轉(zhuǎn)移在同時發(fā)生。
當(dāng)我們邁向人工智能時代時,應(yīng)用程序?qū)?gòu)建在AI之上。起初,人們認(rèn)為AI本身就是應(yīng)用,事實(shí)也確實(shí)如此。但未來,你將要在AI之上構(gòu)建應(yīng)用程序。除此之外,軟件的運(yùn)行方式和開發(fā)方式也發(fā)生了根本性改變。
計(jì)算機(jī)工業(yè)的整個基礎(chǔ)技術(shù)棧正在被重新發(fā)明。你不再“編程”軟件,而是“訓(xùn)練”軟件;你不再在CPU上運(yùn)行它,而是在GPU上運(yùn)行它。過去的應(yīng)用程序是預(yù)先錄制、預(yù)先編譯并在你的設(shè)備上運(yùn)行的,而現(xiàn)在的應(yīng)用程序能夠理解上下文,每一次、每一個像素、每一個token都是從零開始生成的。由于加速計(jì)算,由于人工智能,計(jì)算已經(jīng)被徹底重塑。那個“五層蛋糕”(指技術(shù)棧)的每一層如今都在被重新發(fā)明。
這意味著,過去十年積累的價值約十萬億美元的計(jì)算機(jī)基礎(chǔ)設(shè)施,現(xiàn)在正被現(xiàn)代化改造,以適應(yīng)這種新的計(jì)算方式。每年有數(shù)千億甚至上萬億美元的風(fēng)險投資正在涌入,用于現(xiàn)代化改造和發(fā)明這個新世界。
![]()
這也意味著,一個百萬億美元規(guī)模的產(chǎn)業(yè),其研發(fā)預(yù)算中有幾個百分點(diǎn)正在轉(zhuǎn)向人工智能。人們問錢從哪里來?這就是來源。從傳統(tǒng)AI到現(xiàn)代AI的現(xiàn)代化改造,研發(fā)預(yù)算從經(jīng)典方法轉(zhuǎn)向現(xiàn)在的人工智能方法,海量投資正涌入這個行業(yè),這解釋了為什么我們?nèi)绱嗣β怠?/p>
過去這一年也不例外。2025年是不可思議的一年。看起來似乎所有事情都在同一時間發(fā)生,事實(shí)上可能也確實(shí)如此。第一件事當(dāng)然是擴(kuò)展定律(Scaling Laws)。2015年,我認(rèn)為第一個真正會產(chǎn)生影響的模型BERT出現(xiàn)了,它確實(shí)帶來了巨大影響。
2017年,Transformer架構(gòu)問世。直到五年后的2022年,“ChatGPT時刻”才發(fā)生,它喚醒了世界對人工智能可能性的認(rèn)識。那之后一年發(fā)生了一件非常重要的事。ChatGPT的第一個推理模型o1面世,“測試時縮放”這個概念也隨之產(chǎn)生。
我們不僅預(yù)訓(xùn)練讓模型學(xué)習(xí),還在后訓(xùn)練階段通過強(qiáng)化學(xué)習(xí)讓它學(xué)習(xí)新的技能。現(xiàn)在我們還有了測試時縮放,這本質(zhì)上是“思考”的另一種說法,包括實(shí)時進(jìn)行思考。人工智能的每一個階段都需要巨大的計(jì)算量,而計(jì)算定律仍在持續(xù)擴(kuò)展,大語言模型持續(xù)變得更好。
二、開源革命:前沿模型與智能體普及
與此同時,另一個突破發(fā)生了,這個突破發(fā)生在2024年:智能體系統(tǒng)開始出現(xiàn)。到2025年,它開始普及,擴(kuò)散到幾乎每個角落。具備推理能力、能查找信息、進(jìn)行研究、使用工具、規(guī)劃未來、模擬結(jié)果的智能體模型,突然開始解決非常重要的問題。我最喜歡的智能體模型之一叫做Cursor,它徹底改變了英偉達(dá)內(nèi)部的軟件開發(fā)方式。智能體系統(tǒng)將真正從這里起飛。
當(dāng)然,還有其他類型的AI。我們知道大語言模型并不是唯一的信息類型。宇宙中凡有信息之處、凡有結(jié)構(gòu)之處,我們都能教一種語言模型去理解那種信息,理解其表征,并將其轉(zhuǎn)化為一種AI。其中最重要的一種是物理AI,即能夠理解自然定律的AI。當(dāng)然,物理AI也涉及AI與世界交互。但世界本身蘊(yùn)含著被編碼的信息,這就是“AI物理”。在物理AI的語境下,你有與物理世界交互的AI,也有理解物理定律物理AI。
最后,去年發(fā)生的最重要事情之一是開源模型的進(jìn)步。我們現(xiàn)在可以知道,當(dāng)開源、當(dāng)開放創(chuàng)新、當(dāng)全世界每個行業(yè)、每家公司的創(chuàng)新同時被激活時,AI將無處不在。與此同時,開源模型在2025年真正起飛了。
事實(shí)上,去年我們看到了DeepSeek R1的進(jìn)步,這是第一個開源推理系統(tǒng)。它讓世界大吃一驚,現(xiàn)在世界各地有各種不同類型的開源模型系統(tǒng)。開源模型已經(jīng)達(dá)到了前沿水平,雖然仍落后前沿模型大約六個月,但每六個月就有新模型出現(xiàn),而且這些模型越來越聰明。
![]()
正因?yàn)槿绱耍憧梢钥吹介_源模型的下載量呈現(xiàn)爆炸式增長,因?yàn)槌鮿?chuàng)公司、大公司、研究員、學(xué)生,幾乎每個國家都想?yún)⑴cAI革命。
智能——數(shù)字形式的智能——怎么可能拋下任何人呢?因此,開源模型去年真的徹底改變了人工智能,整個行業(yè)將因此被重塑。
其實(shí)我們對此早有預(yù)感。你可能聽說過,幾年前,我們開始建造和運(yùn)營自己的AI超級計(jì)算機(jī)——DGX Cloud。很多人問,你們要進(jìn)軍云計(jì)算業(yè)務(wù)嗎?答案是否定的。我們建造這些DGX超級計(jì)算機(jī)是供自己使用的。結(jié)果是,我們有數(shù)十億美元的超算在運(yùn)行,以便開發(fā)我們的開源模型。
它開始吸引全球各行各業(yè)的關(guān)注,因?yàn)槲覀冊诒姸嗖煌I(lǐng)域進(jìn)行著前沿的AI模型工作:我們在蛋白質(zhì)、數(shù)字生物學(xué)(La Proteina)方面的工作,用于合成和生成蛋白質(zhì);OpenFold 3,用于理解蛋白質(zhì)結(jié)構(gòu);EVO 2,用于理解和生成多種蛋白質(zhì);以及開源的細(xì)胞表征模型的開端。
Earth-2 AI,理解物理定律的AI;我們在ForecastNet方面的工作;我們在Cordiff方面的工作,真的徹底改變了人們進(jìn)行天氣預(yù)報的方式。Nemotron,我們現(xiàn)在正在那里進(jìn)行開創(chuàng)性的工作。第一個混合Transformer SSM模型,速度快得驚人,因此可以進(jìn)行長時間思考,或者快速思考(不那么長時間)并產(chǎn)生非常非常智能的答案。你們可以期待,我們在不久的將來發(fā)布Nemotron 3的其他版本。
![]()
Cosmos,一個前沿的開放世界基礎(chǔ)模型,理解世界如何運(yùn)作。Groot,一個人形機(jī)器人系統(tǒng),涉及關(guān)節(jié)控制、移動性、運(yùn)動。這些模型,這些技術(shù)現(xiàn)在正在被集成,并且在每一種情況下,都對世界開源。今天,我們也將談?wù)凙lpamayo,我們在自動駕駛汽車方面所做的工作。
我們不僅開源模型,還開源用于訓(xùn)練這些模型的數(shù)據(jù),因?yàn)橹挥羞@樣,你才能真正信任模型的產(chǎn)生過程。我們開源所有模型,我們幫助你基于它們進(jìn)行衍生開發(fā)。我們有一整套庫,稱為NeMo庫:物理NeMo庫、Clara NeMo庫、BioNeMo庫。每一個都是AI的生命周期管理系統(tǒng),讓你能夠處理數(shù)據(jù)、生成數(shù)據(jù)、訓(xùn)練模型、創(chuàng)建模型、評估模型、為模型設(shè)置防護(hù)欄,一直到部署模型。每一個庫都極其復(fù)雜,而且全部開源。
![]()
因此,在這個平臺之上,英偉達(dá)也是一個前沿AI模型構(gòu)建者,我們以一種非常特殊的方式構(gòu)建:我們完全以開放的方式構(gòu)建,以便讓每家公司、每個行業(yè)、每個國家都能成為這場AI革命的一部分。
這些模型不僅具備前沿能力、是開源的,它們還在各類排行榜上名列前茅。我們有理解多模態(tài)文檔(即PDF)的重要模型。世界上最有價值的內(nèi)容都存儲在PDF中,但需要人工智能來發(fā)現(xiàn)里面有什么、解讀內(nèi)容并幫助你閱讀。
因此,我們的PDF檢索器、PDF解析器是世界級的。我們的語音識別模型絕對是世界級的。我們的檢索模型,本質(zhì)上是現(xiàn)代AI時代的搜索、語義搜索、AI搜索、數(shù)據(jù)庫引擎,也是世界一流的。所以我們經(jīng)常占據(jù)榜首。
所有這些都是為了服務(wù)于你構(gòu)建AI智能體的能力。這真是一個開創(chuàng)性的發(fā)展領(lǐng)域。當(dāng)ChatGPT剛出現(xiàn)時,人們認(rèn)為其產(chǎn)生的結(jié)果很有趣,但幻覺也很嚴(yán)重。產(chǎn)生幻覺的原因在于,它可以記住過去的一切,但無法記住未來和當(dāng)前的一切。所以它需要基于研究來“接地氣”。
在回答問題之前,它必須進(jìn)行基礎(chǔ)研究。能夠推理是否需要研究、是否需要使用工具、如何將問題分解成更多步驟。ChatGPT能夠?qū)⑦@些步驟組合成一個序列,來完成它從未做過、從未被訓(xùn)練過的事情。這就是推理的魔力所在。我們可以遇到從未見過的情況,并將其分解成我們過去經(jīng)歷過、知道如何處理的情況、知識或規(guī)則。
![]()
因此,AI模型現(xiàn)在具備的推理能力極其強(qiáng)大。智能體的推理能力為所有這些不同的應(yīng)用打開了大門。我們不再需要在第一天就訓(xùn)練AI模型知道一切,就像我們不需要在第一天就知道一切一樣。我們應(yīng)該能夠在任何情況下,推理出如何解決某個問題。大語言模型現(xiàn)在已經(jīng)實(shí)現(xiàn)了根本性的飛躍。
使用強(qiáng)化學(xué)習(xí)、思維鏈、搜索、規(guī)劃等不同技術(shù)和強(qiáng)化學(xué)習(xí)的能力,使我們具備了這種基本能力,并且現(xiàn)在也完全開源了。
但真正了不起的是,另一個突破發(fā)生了,我第一次看到它是在Perplexity(AI搜索公司)那里。我第一次意識到他們同時使用多個模型。我認(rèn)為這完全是天才之舉。AI在推理鏈的任何環(huán)節(jié),能調(diào)用世界上所有優(yōu)秀的AI來解決它想解決的問題。這就是為什么AI本質(zhì)上是多模態(tài)的,它們理解語音、圖像、文本、視頻、3D圖形、蛋白質(zhì)。
它也是“多模型”的,意味著它們應(yīng)該能夠使用最適合任務(wù)的任何模型。因此,它本質(zhì)上是“多云”的,因?yàn)檫@些AI模型位于所有這些不同的地方。它還是“混合云”的,因?yàn)槿绻闶且患移髽I(yè)公司,或者你構(gòu)建了一個機(jī)器人或任何設(shè)備,有時它在邊緣,有時在無線基站,有時在企業(yè)內(nèi)部,或者是在醫(yī)院等需要實(shí)時處理數(shù)據(jù)的地方。換言之,由于未來的應(yīng)用構(gòu)建在AI之上,這就是未來應(yīng)用的基本框架。
![]()
這個基本框架,這種能夠完成我所描述的、具備多模型能力的智能體AI的基本結(jié)構(gòu),現(xiàn)在已經(jīng)極大地推動了各類AI初創(chuàng)公司的發(fā)展。
通過我們開源的模型和工具,現(xiàn)在你也可以輕松定制自己的AI,教它那些獨(dú)一無二的技能。這正是我們開發(fā)Nemotron、NeMo等開源模型的目標(biāo)。你只需要在AI前面加一個智能路由管理器,它會根據(jù)你的指令,自動選擇最合適的模型來解決問題。
這樣的架構(gòu)帶來什么?你得到的AI既能完全按你的需求定制,可以教它公司特有的技能,這些可能正是你的核心優(yōu)勢,而且你也有對應(yīng)的數(shù)據(jù)和專業(yè)知識去訓(xùn)練它;同時,它又能始終保持技術(shù)領(lǐng)先,隨時用上最新的能力。
簡單來說,你的AI既能高度個性化,又能即開即用,始終保持在前沿。
為此,我們做了一個最簡單的示例框架,叫“AI Route Blueprint”,已經(jīng)集成到全球多家企業(yè)的SaaS平臺中,效果很不錯。
這是不是很不可思議?使用語言模型。使用預(yù)先訓(xùn)練好的、專有的、前沿的語言模型,與定制的語言模型結(jié)合到一個智能體框架、一個推理框架中,允許你訪問工具和文件,甚至可能連接到其他智能體。這基本上就是AI應(yīng)用或現(xiàn)代應(yīng)用的基本架構(gòu),而我們創(chuàng)建這些應(yīng)用的能力非常快。
注意,即使你給它從未見過的應(yīng)用程序信息,或者以一種并非完全如你所想的結(jié)構(gòu)呈現(xiàn),它仍然能進(jìn)行推理,并盡最大努力通過數(shù)據(jù)和信息去嘗試?yán)斫馊绾谓鉀Q問題。這就是人工智能。
這個基本框架現(xiàn)在正在被整合,而我剛才描述的一切,我們有幸與一些世界領(lǐng)先的企業(yè)平臺公司合作。例如Palantir,他們整個AI和數(shù)據(jù)處理平臺正在集成,并由英偉達(dá)加速。還有世界領(lǐng)先的客戶服務(wù)和員工服務(wù)平臺ServiceNow、全球頂級的云端數(shù)據(jù)平臺Snowflake。CodeRabbit,我們在英偉達(dá)內(nèi)部廣泛使用。CrowdStrike,正在創(chuàng)建AI來檢測和發(fā)現(xiàn)AI威脅。NetApp,他們的數(shù)據(jù)平臺現(xiàn)在上面有英偉達(dá)的語義AI,以及智能體系統(tǒng),用于客戶服務(wù)。
但重要的是:這不僅是你現(xiàn)在開發(fā)應(yīng)用的方式,它還將成為你平臺的用戶界面。所以,無論是Palantir、ServiceNow還是Snowflake,以及我們正在合作的許多其他公司,智能體系統(tǒng)就是界面。它不再是在方格里輸入信息的Excel,也許也不再僅僅是命令行。現(xiàn)在,所有這些多模態(tài)信息交互都成為可能。你與平臺交互的方式變得更加簡單,就像你在與人交互一樣。因此,企業(yè)AI正在被智能體系統(tǒng)徹底改變。
三、物理AI突圍:教會機(jī)器理解與交互真實(shí)世界
下一件事是物理AI。這是你們聽我談?wù)摿撕脦啄甑念I(lǐng)域。事實(shí)上,我們已經(jīng)為此工作了八年。問題是:如何將計(jì)算機(jī)內(nèi)通過屏幕和揚(yáng)聲器與你交互的智能體,變成能與世界交互的智能體?這意味著它能理解世界運(yùn)作的常識:物體恒存性(我移開視線再回來,物體還在那里)、因果關(guān)系(我推它,它會倒下)。
它理解摩擦力、重力以及慣性,知道一輛重型卡車在路上行駛需要更多時間才能停下,一個球會繼續(xù)滾動。這些想法對小孩來說都是常識,但對AI來說完全是未知的。因此,我們必須創(chuàng)建一個系統(tǒng),讓AI能夠?qū)W習(xí)物理世界的常識、學(xué)習(xí)其規(guī)律,當(dāng)然也能從數(shù)據(jù)中學(xué)習(xí)。而數(shù)據(jù)相當(dāng)稀缺。并且需要能夠評估AI是否有效,這意味著它必須在環(huán)境中進(jìn)行模擬。如果AI沒有能力模擬物理世界對其動作的反饋,它怎么知道自己執(zhí)行的動作是否符合預(yù)期?
![]()
這個基本系統(tǒng)需要三臺計(jì)算機(jī):一臺是我們熟知的、英偉達(dá)制造的用于訓(xùn)練AI模型的計(jì)算機(jī);第二臺是用于推理模型的計(jì)算機(jī)。推理模型本質(zhì)上是在汽車、機(jī)器人、工廠或任何邊緣地方運(yùn)行的機(jī)器人計(jì)算機(jī);但必須有另一臺為模擬設(shè)計(jì)的計(jì)算機(jī),因?yàn)槟M是英偉達(dá)幾乎所有事情的核心,這是我們最得心應(yīng)手的地方。模擬確實(shí)是我們所做的一切物理AI工作的基礎(chǔ)。
所以我們有三臺計(jì)算機(jī),以及運(yùn)行在這些計(jì)算機(jī)上、讓它們變得有用的多個技術(shù)棧和庫。Omniverse是我們的數(shù)字孿生、基于物理的模擬世界。Cosmos是我們的基礎(chǔ)模型,不是語言基礎(chǔ)模型,而是世界基礎(chǔ)模型,并且也與語言對齊。你可以問“球怎么樣了?”,它會告訴你球正在街上滾動。當(dāng)然,還有機(jī)器人模型,我們有兩個:一個叫Groot,另一個叫Alpamayo。
![]()
對于物理AI,我們必須做的最重要的事情之一就是創(chuàng)建數(shù)據(jù)來訓(xùn)練AI。這些數(shù)據(jù)從何而來?不像語言那樣,因?yàn)槲覀儎?chuàng)造了一堆被認(rèn)為是“真實(shí)情況”的文本,AI可以從中學(xué)習(xí)。我們?nèi)绾谓虝嗀I物理世界的“真實(shí)情況”?盡管有大量的視頻,但遠(yuǎn)遠(yuǎn)不足以捕捉我們需要的交互的多樣性和類型。
因此,一些偉大的頭腦聚集在一起,將原本用于計(jì)算的資源轉(zhuǎn)化為數(shù)據(jù)。現(xiàn)在,利用以物理定律為基礎(chǔ)和條件、以真實(shí)情況為基礎(chǔ)和條件的合成數(shù)據(jù)生成技術(shù),我們可以有選擇地、巧妙地生成數(shù)據(jù),然后用來訓(xùn)練AI。例如,我們可以利用Cosmos基礎(chǔ)模型,生成基于物理、物理上合理的環(huán)繞視頻,AI現(xiàn)在可以從中學(xué)習(xí)。
我知道這很不可思議。Cosmos是世界領(lǐng)先的基礎(chǔ)模型、世界基礎(chǔ)模型。它已被下載數(shù)百萬次,在世界各地使用,讓世界為這個物理AI的新時代做好準(zhǔn)備。我們自己也在使用它,用它來創(chuàng)建我們的自動駕駛汽車系統(tǒng),用于場景生成和評估。通過計(jì)算機(jī)模擬,我們能夠有效地行駛數(shù)十億、數(shù)萬億公里。
![]()
今天,我們宣布推出Alpamayo,世界上首個會思考、會推理的自動駕駛汽車AI。Alpamayo是端到端訓(xùn)練的,從攝像頭輸入到驅(qū)動輸出。訓(xùn)練數(shù)據(jù)包括它自己行駛的大量里程、人類駕駛示范,以及由Cosmos生成的大量里程。除此之外,還有數(shù)十萬個非常仔細(xì)標(biāo)記的例子,以便我們教汽車如何駕駛。
Alpamayo獨(dú)特之處在于。它不僅接收傳感器輸入并驅(qū)動方向盤、剎車和加速器,還會推理它即將采取什么行動。它會告訴你它將采取什么行動,采取該行動的原因,當(dāng)然還有軌跡。所有這些都直接耦合,并通過人類訓(xùn)練數(shù)據(jù)和Cosmos生成數(shù)據(jù)的巨大組合進(jìn)行專門訓(xùn)練。結(jié)果非常不可思議。
不僅汽車能像你期望的那樣駕駛,而且駕駛得非常自然,因?yàn)樗苯訌娜祟愂痉吨袑W(xué)習(xí)。但在每一個場景中,當(dāng)它遇到某個場景時,它會進(jìn)行推理,告訴你它將做什么,并推理它為什么要做。這之所以如此重要,是因?yàn)轳{駛的“長尾”問題。
我們不可能簡單地收集世界上每個國家、每種情況、所有人口可能遇到的所有可能的場景。然而,每個場景如果被分解成一系列更小的場景,很可能都是相當(dāng)常見的、你能理解的。因此,這些長尾場景將被分解成汽車知道如何處理的相當(dāng)常見的情況,它只需要進(jìn)行推理。
我們八年前就開始研發(fā)自動駕駛汽車了。原因在于我們很早就認(rèn)識到,深度學(xué)習(xí)和人工智能將徹底重塑整個計(jì)算技術(shù)棧。如果我們想要理解如何引領(lǐng)自己、如何指引行業(yè)走向這個新未來,就必須精通構(gòu)建整個技術(shù)棧。
四、計(jì)算躍進(jìn):Rubin平臺與全棧芯片的終極重構(gòu)
正如我之前提到的,AI是一個“五層蛋糕”。最底層是土地、電力和外殼。在機(jī)器人領(lǐng)域,最底層就是汽車本身。往上一層是芯片:GPU、網(wǎng)絡(luò)芯片、CPU等等。再往上是基礎(chǔ)設(shè)施層。在物理AI這個具體案例中,基礎(chǔ)設(shè)施就是Omniverse和Cosmos。然后在上層是模型層。我剛才展示的模型就屬于這一層,這個模型叫做Alpamayo。今天,Alpamayo正式開源了。
我們設(shè)想有一天,道路上的十億輛汽車都將實(shí)現(xiàn)自動駕駛。你可以選擇租用別人運(yùn)營的自動駕駛出租車,也可以擁有自己的車讓它為你駕駛,或者選擇自己駕駛。但每一輛車都將具備自動駕駛能力。每一輛車都將由AI驅(qū)動。所以在這個案例中,模型層是Alpamayo,而應(yīng)用層之上就是梅賽德斯-奔馳汽車。
總而言之,這個技術(shù)棧是英偉達(dá)首次嘗試構(gòu)建的完整技術(shù)棧。我們一直為此努力,非常高興英偉達(dá)的首款自動駕駛汽車將于第一季度在美國上路,然后歐洲是第二季度,亞洲或許是第三、第四季度。強(qiáng)大之處在于,我們將不斷用Alpamayo的后續(xù)版本進(jìn)行更新。
毫無疑問,在我看來,這將成為最大的機(jī)器人產(chǎn)業(yè)之一。它教會了我們大量關(guān)于如何幫助世界其他地區(qū)構(gòu)建機(jī)器人系統(tǒng)的深刻理解。通過自己構(gòu)建整個基礎(chǔ)設(shè)施,我們知道了機(jī)器人系統(tǒng)需要什么樣的芯片。
在這個具體案例中,是下一代雙Thor處理器。這些處理器專為機(jī)器人系統(tǒng)設(shè)計(jì),具備最高級別的安全能力。梅賽德斯-奔馳CLA剛剛被NCAP評為世界上最安全的汽車。
據(jù)我所知,這是唯一一個每一行代碼、芯片、系統(tǒng)都經(jīng)過安全認(rèn)證的系統(tǒng)。整個模型系統(tǒng)基于此,傳感器是多樣且冗余的,自動駕駛汽車技術(shù)棧也是如此。Alpamayo技術(shù)棧是端到端訓(xùn)練的,擁有驚人的技能。然而,除非無限期地駕駛,否則沒人知道它是否絕對安全。
因此,我們通過另一個軟件技術(shù)棧、一個完整的自動駕駛技術(shù)棧來為其設(shè)置防護(hù)欄。那個完整的技術(shù)棧被構(gòu)建為完全可追溯的。我們花了大約五年(實(shí)際上是六七年)來構(gòu)建那個第二技術(shù)棧。這兩個軟件技術(shù)棧相互映照。
然后我們利用Alpamayo進(jìn)行策略和安全評估。如果是一個我不太自信的情況,安全策略評估器決定我們將退回到一個更簡單、更安全的防護(hù)欄系統(tǒng),那么就回到經(jīng)典的自動駕駛技術(shù)棧。這是世界上唯一同時運(yùn)行這兩個自動駕駛技術(shù)棧的汽車。所有安全系統(tǒng)都應(yīng)該具備多樣性和冗余性。
我們的愿景是,有朝一日每一輛汽車、每一輛卡車都將是自動駕駛的。我們一直在朝著那個未來努力。這整個技術(shù)棧是垂直集成的。當(dāng)然,在梅賽德斯-奔馳的案例中,我們一起構(gòu)建了整個技術(shù)棧,我們將部署汽車、運(yùn)營技術(shù)棧,只要我們還存在,就會維護(hù)這個技術(shù)棧。
然而,就像我們公司所做的其他一切一樣,我們構(gòu)建整個技術(shù)棧,但整個技術(shù)棧對生態(tài)系統(tǒng)開放。與我們合作構(gòu)建L4級和自動駕駛出租車的生態(tài)系統(tǒng)正在擴(kuò)展,無處不在。我完全相信,這已經(jīng)是我們的一項(xiàng)巨大業(yè)務(wù),因?yàn)榭蛻粲盟鼇碛?xùn)練、處理訓(xùn)練數(shù)據(jù),以及訓(xùn)練他們的模型。在某些案例中,一些公司用它來生成合成數(shù)據(jù)。有些公司基本上只制造汽車內(nèi)部的計(jì)算機(jī)和芯片,有些公司與我們進(jìn)行全棧合作,有些則合作部分環(huán)節(jié)。
整個系統(tǒng)現(xiàn)在是開放的。這將成為第一個大規(guī)模、主流的AI物理AI市場。從非自動駕駛汽車到自動駕駛汽車的轉(zhuǎn)折點(diǎn),很可能就在此時開始,并在未來十年內(nèi)發(fā)生。我相當(dāng)確信,世界上很大比例的汽車將是自動駕駛或高度自動駕駛的。
但是,我剛才描述的這個基本技術(shù)(使用三臺計(jì)算機(jī)、利用合成數(shù)據(jù)生成和模擬),適用于所有形式的機(jī)器人系統(tǒng)。可能只是一個關(guān)節(jié)、一個機(jī)械臂,可能是移動機(jī)器人,也可能是完整的人形機(jī)器人。所以,下一個旅程將是機(jī)器人。這些機(jī)器人將會有各種不同的尺寸。
![]()
這些機(jī)器人身上有微型Jetson計(jì)算機(jī),它們是在Omniverse里面訓(xùn)練出來的。機(jī)器人模擬器叫Isaac Sim和Isaac Lab。 我們有很多建造機(jī)器人的朋友,包括New Robot、AG Bot、LG、卡特彼勒(他們有史上最大的機(jī)器人)、Serve Robot、Agility、波士頓動力、Franka以及Universal Robots等。
舉例來說,Cadence將CUDA-X集成到他們所有的模擬器和求解器中。他們將使用英偉達(dá)的物理AI來進(jìn)行不同的物理裝置和工廠模擬。AI物理正被集成到這些系統(tǒng)中。所以,無論是電子設(shè)計(jì)自動化還是系統(tǒng)設(shè)計(jì)自動化,以及未來的機(jī)器人系統(tǒng),我們將擁有基本上與創(chuàng)造你們相同的技術(shù),現(xiàn)在將徹底革新這些設(shè)計(jì)技術(shù)棧。
在芯片設(shè)計(jì)領(lǐng)域,Synopsys和Cadence是完全不可或缺的。Synopsys在邏輯設(shè)計(jì)和IP領(lǐng)域領(lǐng)先,而Cadence在物理設(shè)計(jì)、布局布線、仿真和驗(yàn)證方面領(lǐng)先。Cadence在仿真和驗(yàn)證方面做得非常出色。他們兩家都正在進(jìn)入系統(tǒng)設(shè)計(jì)和系統(tǒng)仿真的領(lǐng)域。所以未來,我們將在Cadence和Synopsys內(nèi)部設(shè)計(jì)芯片,并在這些工具內(nèi)部模擬一切。
![]()
西門子也在做同樣的事情。我們將把CUDA-X物理AI、智能體AI、NeMo、Nemotron深度集成到西門子的世界中。原因如下:首先,我們設(shè)計(jì)芯片,未來這一切都將由英偉達(dá)加速。我們將有智能體芯片設(shè)計(jì)師和系統(tǒng)設(shè)計(jì)師與我們合作,他們幫助我們進(jìn)行設(shè)計(jì),就像我們今天有智能體軟件工程師幫助我們的軟件工程師編碼一樣。
然后我們必須能夠制造機(jī)器人。我們必須建造生產(chǎn)它們的工廠、設(shè)計(jì)組裝它們的生產(chǎn)線。而這些制造工廠本質(zhì)上將是巨型機(jī)器人。所以,機(jī)器人將在計(jì)算機(jī)中被設(shè)計(jì),在計(jì)算機(jī)中被制造,在計(jì)算機(jī)中被測試和評估。我們現(xiàn)在創(chuàng)造的技術(shù)已經(jīng)達(dá)到了足夠成熟和強(qiáng)大的水平,可以反過來幫助他們徹底革新它們所在的行業(yè)。
放眼全球的模型格局,毫無疑問,OpenAI是當(dāng)今領(lǐng)先的token生成器。今天,OpenAI生成的token數(shù)量遠(yuǎn)超其他任何模型。第二大群體,可能就是開源模型了。我猜隨著時間的推移,因?yàn)橛腥绱硕嗟墓尽⑷绱硕嗟难芯咳藛T、如此多不同類型的領(lǐng)域和模態(tài),開源模型將成為規(guī)模最大的群體。
![]()
在此過程中,離不開Rubin構(gòu)架。這個平臺的誕生,是為了應(yīng)對我們面臨的一個根本性挑戰(zhàn):AI所需的計(jì)算量正在飆升,對英偉達(dá)GPU的需求也在飆升。這種飆升是因?yàn)槟P兔磕甓荚谝?0倍、一個數(shù)量級的規(guī)模增長。更不用說,o1模型的引入是AI的一個轉(zhuǎn)折點(diǎn)。推理不再是一次性給出答案,現(xiàn)在是一個思考過程。為了教會AI如何思考,強(qiáng)化學(xué)習(xí)和極其大量的計(jì)算被引入了后訓(xùn)練階段。它不再是監(jiān)督式微調(diào)(也稱為模仿學(xué)習(xí)或監(jiān)督訓(xùn)練),現(xiàn)在有了強(qiáng)化學(xué)習(xí),本質(zhì)上是計(jì)算機(jī)通過自我嘗試不同迭代來學(xué)習(xí)如何執(zhí)行任務(wù)。結(jié)果,用于預(yù)訓(xùn)練、后訓(xùn)練、測試時縮放的計(jì)算量爆炸式增長。
現(xiàn)在,我們進(jìn)行的每一次推理,都可能生成2個token而不是1個,你可以看到AI在“思考”。它思考得越久,通常能給出更好的答案。因此,測試時縮放導(dǎo)致生成的token數(shù)量每年增加5倍。
![]()
與此同時,AI的競賽正在激烈進(jìn)行。每個人都在試圖達(dá)到下一個水平,登上新的前沿。而每當(dāng)他們到達(dá)新的前沿,上一代AI生成token的成本就開始下降,降幅大約是10倍。每年下降10倍這件事實(shí)際上說明了不同的情況:它表明競賽如此激烈,每個人都在努力達(dá)到下一個水平,并且確實(shí)有人正在達(dá)到那個水平。
因此,所有這一切本質(zhì)上都是一個計(jì)算問題。你計(jì)算得越快,就能越早達(dá)到下一個水平和前沿。所有這些事情都在同時發(fā)生,所以我們決定,必須每年都推進(jìn)計(jì)算技術(shù)的水平,一年都不能落后。
我們一年半前出貨GB200。目前,我們正在進(jìn)行GB300的大規(guī)模生產(chǎn)。如果Rubin想要在今年及時推出,它現(xiàn)在就必須已經(jīng)投產(chǎn)。所以今天,我可以告訴你們:Rubin已進(jìn)入全面生產(chǎn)階段。
我們還推出了基于Rubin架構(gòu)的新一代計(jì)算集群DGX SuperPOD,包含1152個GPU,分布在16個機(jī)架中,每個機(jī)架有72個Rubin GPU。
我們設(shè)計(jì)了六種不同的芯片。首先,我們公司內(nèi)部有一個原則:每一代新平臺不應(yīng)該有超過一兩個芯片發(fā)生變動。但問題來了:我們知道摩爾定律已經(jīng)基本放緩,因此我們每年能獲得的晶體管數(shù)量,不可能跟上模型每年10倍的增長速度,不可能跟上每年生成的token數(shù)量5倍的增長,也不可能跟上令牌成本如此激進(jìn)的下降速度。
如果行業(yè)要繼續(xù)前進(jìn),要想跟上這樣的速度是不可能的。除非我們采用激進(jìn)的極致協(xié)同設(shè)計(jì),基本上就是在所有芯片、整個技術(shù)棧上同時進(jìn)行創(chuàng)新。為此,我們決定,在這一代平臺上重新設(shè)計(jì)每一個芯片。
首先是Vera CPU。在一個受功率約束的世界里,它的性能是上一代的兩倍,每瓦性能是世界上其他最先進(jìn)CPU的兩倍。它的數(shù)據(jù)速率是瘋狂的,專為處理超級計(jì)算機(jī)而設(shè)計(jì)。Grace曾是一款出色的CPU,而Vera則將單線程性能、內(nèi)存容量和所有方面都顯著提升了。這是一次巨大的飛躍。
![]()
Vera CPU連接到Rubin GPU!這是一個巨大的芯片,有88個CPU核心,這些核心設(shè)計(jì)為支持多線程。但Vera的多線程特性設(shè)計(jì)得讓176個線程中的每一個都能獲得其完整的性能,所以本質(zhì)上就像有176個核心,但只有88個物理核心。這些核心采用了一種叫做空間多線程的技術(shù)設(shè)計(jì),性能驚人。
其次是Rubin GPU。它的浮點(diǎn)性能是Blackwell的5倍,但晶體管數(shù)量只有Blackwell的1.6倍。這多少說明了當(dāng)今半導(dǎo)體物理的水平。如果我們不進(jìn)行協(xié)同設(shè)計(jì),不在整個系統(tǒng)的每一個芯片層面進(jìn)行極致的協(xié)同設(shè)計(jì),我們怎么可能實(shí)現(xiàn)這種性能水平?
第三,我們做的一件偉大的發(fā)明叫做NVFP4 Tensor Core。我們芯片中的Transformer引擎不僅僅是我們放入數(shù)據(jù)通路的某種4位浮點(diǎn)數(shù),它是一個完整的處理器單元,懂得如何動態(tài)、自適應(yīng)地調(diào)整其精度和結(jié)構(gòu),以處理Transformer的不同層次,從而在可以損失精度的地方實(shí)現(xiàn)更高的吞吐量,在需要的時候恢復(fù)到最高的可能精度。這種動態(tài)調(diào)整能力無法通過軟件實(shí)現(xiàn),因?yàn)樗\(yùn)行得太快了。所以必須在處理器內(nèi)部自適應(yīng)地完成。這就是NVFP4的意義。
我們已經(jīng)發(fā)表了關(guān)于NVFP4的論文。它所達(dá)到的吞吐量和精度保持水平是完全不可思議的。這是開創(chuàng)性的工作。未來行業(yè)希望我們將這種格式和結(jié)構(gòu)定為行業(yè)標(biāo)準(zhǔn),我一點(diǎn)也不會感到意外。這完全是革命性的。這就是為什么我們能夠在晶體管數(shù)量僅增加1.6倍的情況下,實(shí)現(xiàn)如此巨大的性能飛躍。
第四,我們革新了整個HGX機(jī)箱。這個節(jié)點(diǎn)以前有43條電纜,現(xiàn)在0條;6根水管,現(xiàn)在0根。以前組裝這個需要兩小時,現(xiàn)在則只要五分鐘,而且100%液冷。
第五,將這些連接到頂層機(jī)架交換機(jī)、處理東西向流量的,叫做Spectrum-X網(wǎng)卡。這是世界上毫無疑問最好的網(wǎng)卡。Mellanox的算法、芯片設(shè)計(jì)、所有互連、其上運(yùn)行的所有軟件棧、RDMA,絕對是無與倫比的世界最佳。現(xiàn)在它還具有可編程的RDMA和數(shù)據(jù)路徑加速器功能,讓我們的合作伙伴(如AI實(shí)驗(yàn)室)可以創(chuàng)建自己的算法來決定如何在系統(tǒng)中移動數(shù)據(jù)。
![]()
第六,ConnectX-9和Vera CPU是協(xié)同設(shè)計(jì)的。眾所周知,ConnectX-8和Spectrum-X徹底改變了用于人工智能的以太網(wǎng)技術(shù)。AI的以太網(wǎng)流量要密集得多,要求更低的延遲,流量的瞬時激增是傳統(tǒng)以太網(wǎng)從未見過的。所以我們創(chuàng)建了Spectrum-X,即AI以太網(wǎng)。兩年前我們宣布了Spectrum-X。今天,英偉達(dá)已成為全球有史以來最大的網(wǎng)絡(luò)公司。
![]()
它非常成功,在各種設(shè)施中廣泛使用,正在席卷整個AI領(lǐng)域。其性能令人難以置信,尤其是當(dāng)你擁有一個200兆瓦的數(shù)據(jù)中心,或者一個千兆瓦的數(shù)據(jù)中心(價值數(shù)百億美元,一個千兆瓦數(shù)據(jù)中心大約500億美元)時。如果網(wǎng)絡(luò)性能能讓你額外獲得10%的收益——以Spectrum-X為例,實(shí)現(xiàn)25%更高的吞吐量并不罕見——僅僅是10%的提升,就價值50億美元。等于網(wǎng)絡(luò)成本完全免費(fèi)了。這就是為什么每個人都在使用Spectrum-X的原因。
第七,現(xiàn)在,我們發(fā)明了一種新型的數(shù)據(jù)處理方式,它的處理器叫做BlueField-4,允許我們管理一個非常龐大的數(shù)據(jù)中心,隔離其不同部分,以便不同用戶可以使用不同部分,確保所有資源在需要時都可以被虛擬化。這樣,你就能卸載很多虛擬化軟件、安全軟件以及南北向流量的網(wǎng)絡(luò)軟件。所以,BlueField-4是每個計(jì)算節(jié)點(diǎn)的標(biāo)準(zhǔn)配置。
第八是NVLink-6交換機(jī)。每個機(jī)架交換機(jī)里面有四個芯片,每顆芯片都有歷史上最快的SerDes。世界才剛剛達(dá)到200Gb/s,而這是每秒400Gb/s的交換機(jī)。這之所以如此重要,是因?yàn)樗茏屆總€GPU都能同時與其他所有GPU進(jìn)行通信。這個位于機(jī)架背板上的交換機(jī),使我們能夠以相當(dāng)于全球互聯(lián)網(wǎng)數(shù)據(jù)總量兩倍的速度移動數(shù)據(jù)。全球互聯(lián)網(wǎng)的橫截面帶寬大約是每秒100太字節(jié),而這個是每秒240太字節(jié),讓每個GPU都能同時與其他所有GPU協(xié)同工作。
后面是NVLink脊柱,基本上是兩英里長的銅纜。銅是我們所知的最佳導(dǎo)體。這些都是屏蔽銅纜、結(jié)構(gòu)銅纜,是計(jì)算系統(tǒng)中有史以來使用最多的。我們的SerDes以每秒400Gb的速率驅(qū)動這些銅纜從機(jī)架頂部一直到機(jī)架底部。這里面總共有長3200米、5000根銅纜,這使NVLink脊柱成為可能。這項(xiàng)革新真正開啟了我們的HGX系統(tǒng),我們決定創(chuàng)建一個行業(yè)標(biāo)準(zhǔn)系統(tǒng),讓整個生態(tài)系統(tǒng)、我們所有的供應(yīng)鏈都能基于這些組件進(jìn)行標(biāo)準(zhǔn)化。構(gòu)成這些HGX系統(tǒng)的組件大約有8萬個。
如果我們每年都改變它,那將是巨大的浪費(fèi)。從富士康到廣達(dá)、緯創(chuàng),再到惠普、戴爾、聯(lián)想,所有主要的計(jì)算機(jī)制造商都知道如何構(gòu)建這些系統(tǒng)。所以,盡管性能高得多,而且非常重要的一點(diǎn)是,功耗是前代的兩倍,Vera Rubin的功耗是Grace Blackwell的兩倍——但我們?nèi)匀荒軐era Rubin塞進(jìn)這個框架里,這本身就是一個奇跡。
進(jìn)入系統(tǒng)的空氣流量大致相同。更重要的是,進(jìn)入的水溫相同,45攝氏度。在45攝氏度下,數(shù)據(jù)中心不需要冷水機(jī)。我們基本上是用熱水來冷卻這臺超級計(jì)算機(jī),效率高得令人難以置信。
所以,這是新的機(jī)架:晶體管數(shù)量是1.7倍,但峰值推理性能是5倍,峰值訓(xùn)練性能是3.5倍。它們通過頂部的Spectrum-X連接起來。
這是世界上第一款采用臺積電新工藝制造的芯片,這個新工藝是我們共同創(chuàng)新的,叫做CoWoS,是一種硅光子集成工藝技術(shù)。這使我們能夠?qū)⒐韫庾又苯蛹傻叫酒稀_@里有512個端口,每個端口200Gb/s。這就是新的以太網(wǎng)AI交換機(jī)——Spectrum-X以太網(wǎng)交換機(jī)。
幾年前我們推出了Spectrum-X,以便徹底改變網(wǎng)絡(luò)連接的方式。以太網(wǎng)確實(shí)易于管理,每個人都有以太網(wǎng)技術(shù)棧,世界上每個數(shù)據(jù)中心都知道如何處理以太網(wǎng)。而當(dāng)時我們使用的另一種技術(shù)叫做InfiniBand,用于超級計(jì)算機(jī)。InfiniBand延遲非常低,但它的軟件棧和整個可管理性對使用以太網(wǎng)的人來說非常陌生。所以我們決定首次進(jìn)入以太網(wǎng)交換機(jī)市場。Spectrum-X一經(jīng)推出就大獲成功,使我們成為世界上最大的網(wǎng)絡(luò)公司。
五、生態(tài)閉環(huán):從基礎(chǔ)設(shè)施到行業(yè)滲透的全棧布局
但就像我之前說的,AI已經(jīng)重塑了整個計(jì)算技術(shù)棧的每一層。同理可證,當(dāng)AI開始在世界各地的企業(yè)部署時,它也必將重塑存儲的方式。AI不使用SQL,AI使用語義信息。當(dāng)AI被使用時,它會創(chuàng)建一種臨時的知識、臨時的記憶,叫做KV緩存(鍵值緩存)。但本質(zhì)上,KV緩存就是AI的工作內(nèi)存。AI的工作內(nèi)存存儲在HBM內(nèi)存中。
![]()
對于生成的每一個token,GPU都會讀入整個模型、整個工作內(nèi)存,產(chǎn)生一個token,然后將這個token存回KV緩存。下一次它再做同樣的事情時,它會再次讀入整個內(nèi)存,流經(jīng)GPU,生成另一個token。它就這樣重復(fù)進(jìn)行。顯然,如果你長時間與AI對話,這個內(nèi)存——這個上下文內(nèi)存——將會急劇增長。更不用說模型本身在增長,我們與AI交互的輪次在增加。我們甚至希望這個AI能伴隨我們一生,記住我們與它進(jìn)行過的每一次對話,對吧?我要求它研究的每一個鏈接……當(dāng)然,共享超級計(jì)算機(jī)的用戶數(shù)量也會持續(xù)增長。
因此,這個最初能放進(jìn)HBM的上下文內(nèi)存,現(xiàn)在已經(jīng)不夠大了。去年,我們創(chuàng)建了Grace Blackwell的快速上下文內(nèi)存,這就是為什么我們將Grace直接連接到Hopper,直接連接到Blackwell,以擴(kuò)展上下文內(nèi)存。但即使那樣也不夠。所以,下一個解決方案當(dāng)然是走網(wǎng)絡(luò)。但是,如果有大量AI同時在運(yùn)行,那個網(wǎng)絡(luò)將不再足夠快。
所以答案很明確:需要一種不同的方法。因此,我們引入了BlueField-4,以便我們能夠在機(jī)架內(nèi)擁有一個非常快速的KV緩存上下文內(nèi)存存儲。這是一種全新的存儲系統(tǒng)類別。業(yè)界對此非常興奮,因?yàn)檫@是幾乎所有今天進(jìn)行大量token生成的人的痛點(diǎn)。AI實(shí)驗(yàn)室、云服務(wù)提供商,他們真的受困于KV緩存移動所導(dǎo)致的網(wǎng)絡(luò)流量。
因此,我們創(chuàng)建一個新平臺、一個新處理器來運(yùn)行整個Dynamo KV緩存/上下文內(nèi)存管理系統(tǒng),并將其放在非常靠近機(jī)架其他部分的地方,這完全是革命性的。
每個這樣的機(jī)架后面有四個BlueField-4。每個BlueField-4后面有150太字節(jié)的上下文內(nèi)存。分?jǐn)偟矫總€GPU上,每個GPU將獲得額外的16太字節(jié)內(nèi)存。現(xiàn)在,在這個節(jié)點(diǎn)內(nèi)部,每個GPU原本大約有1太字節(jié)內(nèi)存。現(xiàn)在有了這個位于同一東西向流量上、數(shù)據(jù)速率完全相同(每秒200Gb)的支撐存儲,橫跨整個計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu),你將獲得額外的16太字節(jié)內(nèi)存。
Vera Rubin有幾個方面真的非常不可思議。第一點(diǎn)我剛才提到過:整個系統(tǒng)的能效是前代的兩倍。雖然功耗是前代的兩倍,能耗也是兩倍,但計(jì)算能力是數(shù)倍于此。進(jìn)入系統(tǒng)的液體溫度仍然是45攝氏度。這使我們能節(jié)省全球數(shù)據(jù)中心大約6%的電力,這是件大事。
第二件大事:整個系統(tǒng)現(xiàn)在支持機(jī)密計(jì)算,意味著所有數(shù)據(jù)在傳輸中、靜態(tài)時和計(jì)算過程中都是加密的,每個總線現(xiàn)在都是加密的——每個PCIe、每個NVLink、每個HBM……CPU與內(nèi)存、CPU與GPU之間、GPU與GPU之間,一切現(xiàn)在都是加密的。所以它是機(jī)密計(jì)算安全的。這讓公司可以放心,即使他們的模型由別人部署,也永遠(yuǎn)不會被任何人看到。
這個特定系統(tǒng)不僅能效極高,還有另一個不可思議之處。由于AI工作負(fù)載的特性,它會在瞬間激增。這個叫做“全歸約”的計(jì)算層所使用的電流量、能量同時飆升,常常會突然激增25%。現(xiàn)在,我們在整個系統(tǒng)中實(shí)現(xiàn)了功率平滑,這樣你就不需要過度配置25%的容量,或者如果你過度配置了,你也不必讓那25%的能源被浪費(fèi)或閑置。現(xiàn)在,你可以用滿整個功率預(yù)算,而不需要過度配置。
最后,當(dāng)然是性能。讓我們看看它的性能。這些都是構(gòu)建AI超級計(jì)算機(jī)的人會喜歡的圖表。這需要……需要這里的每一個芯片、每一個系統(tǒng)的完全重新設(shè)計(jì),并重寫整個軟件棧,才使其成為可能。
我們做的事情其實(shí)圍繞三個核心環(huán)節(jié):
第一是訓(xùn)練速度。訓(xùn)練AI模型越快,就能越早把下一代前沿模型推向世界。這直接決定技術(shù)領(lǐng)先性、上市時間和定價權(quán)。比如綠色部分代表一個10萬億參數(shù)模型(我們稱之為DeepSeek++),需要基于100萬億token進(jìn)行訓(xùn)練。在同樣的訓(xùn)練周期(比如一個月)里,用Rubin平臺只需四分之一的系統(tǒng)數(shù)量就能完成——在同樣的時間里,你能訓(xùn)練更大、更先進(jìn)的模型。
第二是數(shù)據(jù)中心效率。數(shù)據(jù)中心是AI的“工廠”,投資巨大。一個千兆瓦級數(shù)據(jù)中心可能需要500億美元投入,而電力是硬性約束。如果你的計(jì)算架構(gòu)每瓦性能更高,同樣的電力就能產(chǎn)生更多算力,直接轉(zhuǎn)化為數(shù)據(jù)中心的產(chǎn)出和收益。布萊克韋爾平臺相比前代實(shí)現(xiàn)了約10倍的能效提升,而魯賓將在此基礎(chǔ)上再次提升近10倍。
第三是推理成本。也就是實(shí)際生成每個token的成本。Rubin平臺將這一成本降低到原來的約十分之一。
這就是我們推動整個行業(yè)走向下一個前沿的方式——讓訓(xùn)練更快、能效更高、推理更經(jīng)濟(jì),從而支撐AI持續(xù)向更大規(guī)模、更高水平發(fā)展。
如大家所見,今天的英偉達(dá)早已不僅是芯片公司。我們構(gòu)建的是完整的全棧AI體系——從芯片、系統(tǒng)、基礎(chǔ)設(shè)施,到模型和應(yīng)用。我們的使命是打造完整的技術(shù)棧,讓在座的每一位都能在此基礎(chǔ)上,為世界創(chuàng)造令人驚嘆的AI應(yīng)用。
謝謝大家到場,祝大家在CES收獲滿滿!
