<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達周末雙炸!CUDA二十年最大更新,順手屠榜AGI比賽

      0
      分享至


      新智元報道

      編輯:定慧 好困

      【新智元導讀】壟斷全球的CUDA,迎來重大更新。

      就在這個周末,英偉達干了兩件大事。

      不僅在硬件底層生態上扔下了一枚深水炸彈,還在軟實力上秀了一把肌肉。

      兩件大事:

      1.軟件生態的「地基」重塑:NVIDIA CUDA 13.1正式推出。這是CUDA平臺誕生二十年來最大、最全面的一次更新。它引入了CUDA Tile編程模型,旨在屏蔽底層硬件細節,讓開發者能更輕松地駕馭下一代GPU(如Blackwell)的恐怖性能。

      2.贏下AGI比賽:Kaggle ARC Prize 2025競賽中,特級大師團隊KGMoN以27.64%的分數奪得冠軍。令人震驚的是,他們使用的并非千億參數的巨型模型,而是一個僅4B的小模型變體,單次任務推理成本僅需20美分

      這周五,來自英偉達的Ivan Sorokin和Jean-Francois Puget,在Kaggle ARC Prize 2025的公開榜單上,以27.64%的分數奪得冠軍。

      這場比賽被業內許多人視為衡量人類向通用AGI進度的「實時晴雨表」。


      值得一提的是,他們的方案是在ARC-AGI-2基準測試背后的同一數據集上進行評估的。

      NVARC一下子超過Claude Opus 4.5,并且成本很低(注意橫軸每個任務消耗為對數坐標軸)!


      與此同時,英偉達還推出了自CUDA平臺誕生二十年以來最大、最全面的更新——NVIDIA CUDA 13.1。

      • NVIDIA CUDA Tile:基于Tile的編程模型,用于屏蔽包括Tensor Core在內的專用硬件底層細節。

      • Green Context:正式向運行時API開放。

      • NVIDIA cuBLAS:支持雙精度和單精度模擬。

      • CUDA編程指南:完全重寫,專為CUDA新手和資深程序員設計。


      拿下AGI「圣杯」

      4B小模型碾壓全場

      如今,ARC-AGI已經成為了觀察AI通用推理真正進展的,最受關注的指標之一。

      跟典型的機器學習基準不同,ARC-AGI的任務沒法靠堆規模、死記硬背或者抓取模式來搞定。

      它是AI界公認的「智商測試」,由Keras之父Fran?ois Chollet提出,專門測試AI面對陌生問題的舉一反三能力,而不僅僅是死記硬背。


      核心秘訣:320萬合成數據的「暴力美學」

      NVARC方案最震撼的地方,在于他們構建了一個極其復雜的合成數據生成流水線

      他們沒有依賴原本稀缺的幾百個訓練題,而是自己造了320萬個!

      他們的邏輯很簡單:如果AI沒見過類似的推理題,那就生成無窮無盡的類似題目讓它看個夠。

      思路:合成數據測試時訓練(Test-timetraining)以及嚴謹的工程化


      數據生成的「四步走」戰略

      他們使用了一個120B參數的開源大模型(gpt-oss-120b),通過NeMo-Skills框架搭建了如下流水線:


      • 收集描述(Descriptions)收集ARC題目的人類自然語言描述(比如「把紅色方塊向右移動直到碰到墻壁」)。

      • 混合重組(MixSummaries)讓LLM將兩個不同謎題的描述「雜交」,生成一個新的、更復雜的謎題描述。這一步生成了26萬+的新創意。

      • 生成輸入邏輯(InputLogic)這是最關鍵的一步!他們不直接生成像素圖,而是讓LLM寫Python代碼來生成輸入網格。為什么?因為代碼蘊含了邏輯,比純像素更「懂」推理。

      • 生成輸出邏輯(OutputLogic)有了輸入代碼,再讓LLM寫出將輸入變換為輸出的Python代碼(即解題規則)。

      最終,他們構建了一個包含320萬個增強樣本的超級數據集!

      模型選擇:小模型,大智慧

      有了海量數據,用什么模型來學呢?

      NVARC并沒有使用乃至微調那種幾千億參數的巨型模型,而是選擇了Qwen3(4B參數)


      為什么選小模型?

      1.速度快ARC競賽有嚴格的時間限制,小模型推理飛快。

      2.效果好在特定領域(Coding/Reasoning)的海量高質量合成數據喂養下,4B模型的表現完全可以吊打未經微調的巨型模型。

      他們使用NeMoRL框架和Megatron后端進行了高效的全量微調(SFT),讓模型學會了「看圖寫代碼」的能力。

      推理時的魔法:TTT與DFS

      模型訓練好了,在考場上(推理階段)怎么發揮最大威力?

      NVARC用了兩個大招:

      • 測試時訓練(Test-Time Training,TTT)

      對于測試集中的每一個新謎題,他們不會直接預測答案,而是先利用該謎題給出的幾個示例,快速用LoRA技術微調一下模型。

      讓模型在做題前,先「適應」一下這個題目的獨特風格。


      • 深度優先搜索(DFS)

      模型生成的不僅僅是答案,而是生成答案的Python代碼。這意味著,他們可以運行這些代碼來驗證結果是否符合示例。

      通過Batch DFS算法,他們批量生成多種可能的代碼路徑,一旦某段代碼完美解決了所有示例,大概率也能解決測試題。


      在比賽的最后10天,NVARC團隊還嘗試引入了ARC社區非常火的TRM(微型遞歸模型)

      雖然由于時間倉促,TRM并沒有成為得分的主力(主要還是靠Qwen3+合成數據),但這種將「遞歸推理」與「大模型直覺」結合的思路,非常有啟發性。

      在最終的集成方案中,TRM也為分數的提升貢獻了微薄但寶貴的力量。

      NVARC的勝利再次證明了Scaling Law在推理任務上的有效性,但這次Scaling的對象不是模型參數量,而是高質量的合成推理數據

      • 數據:用LLM生成代碼,用代碼生成數據。

      • 模型:專精的小模型+針對性微調。

      • 策略:推理時不要只做一次預測,要利用測試樣本進行TTT。

      通往AGI的路上,也許不需要更復雜的架構,只需要更聰明的「造題」方法。

      為此,團隊除了合成數據,還用了一些真實的謎題數據集。

      最終數據集包含了320萬個增強樣本,每個樣本包含多達7對輸入/輸出。


      在后訓練(post-training)階段,團隊基于NeMoRL框架,并用Megatron后端進行了監督微調(SFT),這樣能高效利用多節點H100GPU的顯存和計算資源。

      期間,為了全量微調4B模型,團隊用了4個8xH100節點跑了27個小時。

      在測試時,團隊對每個謎題獨立進行了LoRA微調(test-timefine-tuning),參數設為r=256和alpha=32。

      期間,既要去掉梯度檢查點,也要去掉4-bit量化,并且微調要用bfloat16精度去跑。

      除了這些,團隊還配合Unsloth框架使用了FlashAttention2。


      開源項目:https://github.com/1ytic/NVARC

      技術報告:https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf

      團隊在ARChitects方法中做的主要優化,是在解碼階段實現了深度優先搜索(DFS)算法的批處理(batch)。

      并且,還使用了額外的增強(augmentations)來對DFS階段的候選結果進行重打分。

      團隊在這里做了一點小改動。

      也就是,對每個候選解只用了8次增強,但確保對每個候選解使用完全相同的增強。

      如此一來,不同解法的分數更有可比性。

      比賽期間,團隊在不同比例的合成數據上微調了模型。

      從下圖中可以看到,在預訓練階段增加更多數據對損失函數的影響。

      最好的模型在比賽期間拿到了27.64%的分數。


      20年最大更新

      CUDA 13.1徹底重構

      CUDA Tile編程

      為了幫助開發者為當前和未來的GPU構建軟件,CUDA 13.1重磅推出了CUDA Tile

      基于此,開發者可以直接在SIMT之上的一層編寫GPU Kernel(核函數)。

      在SIMT編程中,開發者需要通過劃分數據和定義每個線程的執行路徑來指定Kernel。而通過CUDA Tile,則可以將代碼提升一個層級,指定為Tile數據塊。

      開發者只需指定要在這些Tile上執行的數學運算,編譯器和運行時會自動確定將工作分發到各個線程的最佳方式。

      不僅如此,由于Tile模型屏蔽了使用Tensor Core等專用硬件的細節,因此開發者現在寫的Tile代碼將直接兼容未來的GPU架構。

      除此之外,CUDA13.1還發布了兩個用于Tile編程的組件:

      • CUDATileIR一種用于對英偉達GPU進行編程的新虛擬指令集架構(ISA)。

      • cuTile Python一種新的領域特定語言(DSL),用于在Python中編寫基于數組和Tile的Kernel。


      CUDA軟件更新


      Green Context現已向運行時API開放

      CUDA中的Green Context(綠色上下文)是傳統CUDA Context的輕量級替代方案,目的是在為開發者提供一種在GPU上進行更細粒度空間分區和資源預置的機制。

      Green Context使開發者能夠定義和管理GPU資源(主要是流多處理器,即SM)的獨特分區,并將一組特定的SM專用給某個特定的Context。

      然后,開發者可以啟動CUDA Kernel,并管理僅在這個Green Context預置的資源內運行的流(Stream)。

      CUDA13.1還引入了一個更可定制的split() API。

      開發者可以構建以前需要多次API調用才能實現的SM分區,并且能夠配置工作隊列以最大限度地減少提交到不同Green Context的工作之間的虛假依賴。

      CUDA多進程服務(MPS)更新

      CUDA13.1為多進程服務(MPS)帶來了新特性和功能,其中的一些亮點包括:

      • 內存局部性優化分區

      內存局部性優化分區(MLOPart)是部分Blackwell(計算能力10.0和10.3)及更新GPU上的一項功能。開發者可以創建專門用于提高內存局部性的專用CUDA設備。

      在受支持的GPU上使用MLOPart時,每個分區都顯示為一個獨立的CUDA設備,具有關聯的計算和內存資源。

      • 靜態流多處理器分區

      作為MPS中當前動態執行資源預置的替代方案,靜態流多處理器(SM)分區是Ampere架構(計算能力8.0)及更新GPU的一項功能,它提供了一種為MPS客戶端創建獨占SM分區的方法。

      這個模式的主要目的是提供確定性的資源分配并改善MPS客戶端之間的隔離,可以通過使用-S或--static-partitioning標志啟動MPS控制守護進程來啟用。

      開發者工具


      CUDA Tile Kernel分析

      NVIDIA Nsight Compute 2025.4增加了對分析CUDA Tile Kernel的支持。

      更新包括:

      • 摘要頁面上新的「Result Type(結果類型)」列,用于區分Tile與SIMT Kernel。

      • 詳情頁面上新的「Tile Statistics(Tile統計)」部分總結了Tile維度和重要管道的利用率。

      • 源頁面還支持將指標映射到高級cuTile Kernel源碼。

      此外,還增加了對分析設備啟動的Graph中的CUDA Graph節點的支持,以及源頁面導航的改進,為編譯器生成和用戶生成的標簽提供了可點擊的鏈接。


      Nsight Compute分析概況,突出顯示了分析輸出的Tile Statistics部分

      編譯時修補

      NVIDIA Compute Sanitizer 2025.4通過-fdevice-sanitize=memcheck編譯器標志增加了對CUDA編譯器(NVCC)編譯時修補的支持。這種修補增強了內存錯誤檢測并提高了Compute Sanitizer的性能。

      編譯時插樁將錯誤檢測直接集成到NVCC中,以實現更快的運行速度,同時通過高級的基址和邊界分析捕獲更隱蔽的內存問題,例如相鄰分配之間的非法訪問。

      這意味著用戶可以在不犧牲速度的情況下調試內存問題,運行更多測試并保持生產力。

      要使用此新功能,請使用如下NVCC標志編譯代碼:

      nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu

      然后使用memcheck工具通過compute-sanitizer運行你的應用程序:

      compute-sanitizer --tool memcheck myapp

      NVIDIA Nsight Systems

      NVIDIA Nsight Systems 2025.6.1與CUDA Toolkit 13.1同步發布,其中包括了多個全新的追蹤功能:

      • 系統級CUDA追蹤--cuda-trace-scope啟用跨進程樹或整個系統的追蹤。

      • CUDA主機函數追蹤增加了對CUDA Graph主機函數節點和cudaLaunchHostFunc()的追蹤支持,后者在主機上執行并阻塞Stream。

      • CUDA硬件追蹤在支持的情況下,基于硬件的追蹤現在是默認設置;使用--trace=cuda-sw可恢復到軟件模式。

      • Green Context時間軸行現在在工具提示中顯示SM分配,幫助開發者了解GPU資源利用率。


      數學庫

      核心CUDA Toolkit數學庫的新功能包括:

      • NVIDIA cuBLAS

      一個新的帶有Grouped GEMM的實驗性API,支持Blackwell GPU上的FP8和BF16/FP16。

      針對上述數據類型的Grouped GEMM,提供了一種無需主機同步的實現,在MoE用例中比多流GEMM實現速度提升高達4倍

      • NVIDIA cuSPARSE

      一個新的稀疏矩陣向量乘法(SpMVOp)API,與CsrMV API相比性能有所提高。

      此API支持CSR格式、32位索引、雙精度和用戶定義的epilogue(后處理)。

      • NVIDIA cuFFT

      一組cuFFT device API,提供用于在C++頭文件中查詢或生成設備函數代碼和數據庫元數據的主機函數。

      它專為cuFFTDx庫設計,通過查詢cuFFT來促進cuFFTDx代碼塊的生成,這些代碼塊可以與cuFFTDx應用程序鏈接來提高性能。

      cuBLAS Blackwell性能

      CUDA Toolkit 12.9在Blackwell上引入了塊縮放(block-scaled)的FP4和FP8 matmul。

      CUDA13.1增加了對這些數據類型和BF16的性能支持。


      在不同數值精度下,Blackwell GPU相對于H200的加速比

      cuSOLVER Blackwell性能

      CUDA13.1繼續改進用于特征值分解的批處理SYEVD和GEEV API,提供了性能增強。

      批處理SYEV(cusolverDnXsyevBatched)是cuSOLVER SYEV例程的統一批處理版本,用于計算對稱/厄米矩陣的特征值和特征向量,非常適合并行求解許多小矩陣。

      在批量大小為5000(24-256行)的測試中,與L40S相比,RTX Pro 6000實現了約2倍的加速.


      cusolverDnXgeev(GEEV)是一種混合CPU/GPU算法,用于計算一般(非對稱)稠密矩陣的特征值和特征向量。

      在矩陣大小從1024到32768的測試中,RTX PRO 6000相對于L40S實現了最大超1.5倍的性能。


      NVIDIA CUDA Core Compute Libraries(CCCL)


      確定性浮點歸約

      由于浮點加法的非結合性,cub::DeviceReduce歷史上僅保證在同一GPU上的運行之間結果是按位相同的。這是作為一個兩遍算法(two-passalgorithm)實現的。

      作為CUDA 13.1的一部分,NVIDIA CCCL 3.1提供了兩個額外的浮點確定性選項,以便在確定性和性能之間進行權衡。

      • 不保證(Not-guaranteed)使用原子操作的單遍歸約。這不保證提供按位相同的結果。

      • GPU-to-GPU基于Kate Clark在GTC 2024演講中的可重現歸約。結果總是按位相同的。

      可以通過標志設置確定性選項,如下面的代碼所示。

      cub::DeviceReduce::Sum(..., env);


      CUB::DeviceReduce的三種不同浮點確定性選擇的歸一化執行時間

      更方便的單階段CUB API

      幾乎每個CUB算法都需要臨時存儲用于中間暫存空間。

      之前,開發者必須通過兩階段調用模式來查詢和分配必要的臨時存儲,這種模式很繁瑣,并且如果兩次調用之間傳遞的參數不同,則容易出錯。

      CCCL 3.1為一些CUB算法添加了新的重載,這些算法接受一個memory resource(內存資源),因此開發者可以跳過臨時存儲的查詢/分配/釋放模式。

      • 之前(兩階段)

      cudaFreeAsync(temp_storage, stream);


      • 之后(單階段)

      cub::DeviceScan::ExclusiveSum(d_input,..., mr);

      參考資料:

      https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains

      https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      難怪高市如此狂妄,至少50萬日本間諜在華活動,國安部果斷出手

      難怪高市如此狂妄,至少50萬日本間諜在華活動,國安部果斷出手

      博覽歷史
      2025-12-16 18:56:52
      全國警察集體換新裝!這次真的不一樣

      全國警察集體換新裝!這次真的不一樣

      李云飛Afey
      2025-12-16 11:45:53
      如果一個人還在穿10年前的衣服,那說明了這3個問題

      如果一個人還在穿10年前的衣服,那說明了這3個問題

      詩詞中國
      2025-12-16 19:33:58
      越南工廠連夜拆生產線!只因中國電價便宜到他們不敢報價

      越南工廠連夜拆生產線!只因中國電價便宜到他們不敢報價

      潮鹿逐夢
      2025-12-17 14:33:19
      3000萬中年男人硬抬,萬人嫌的國產鍵盤,快把Cherry干沒了?

      3000萬中年男人硬抬,萬人嫌的國產鍵盤,快把Cherry干沒了?

      黑馬公社
      2025-12-15 11:07:41
      A股:突然大利好!國家隊入場,明天很有可能迎大級別的反彈?

      A股:突然大利好!國家隊入場,明天很有可能迎大級別的反彈?

      夜深愛雜談
      2025-12-17 18:09:25
      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      萌蘭聊個球
      2025-12-17 10:37:59
      佳能63萬“惡意賠償”,咋這么明目張膽?

      佳能63萬“惡意賠償”,咋這么明目張膽?

      胡嚴亂語
      2025-12-16 20:29:21
      不是迷信!明日十月二十九,記得:1不去、2不做、3不問、4要吃!

      不是迷信!明日十月二十九,記得:1不去、2不做、3不問、4要吃!

      阿龍美食記
      2025-12-17 04:08:25
      1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

      1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

      寄史言志
      2025-12-17 16:08:14
      傅作義親自護送5位敵將登機南逃,幾十年后才知他保住的是什么

      傅作義親自護送5位敵將登機南逃,幾十年后才知他保住的是什么

      小哥很OK
      2025-12-16 09:24:47
      12306回應上線京滬夜班高鐵,網友稱之為“牛馬夜班專列”

      12306回應上線京滬夜班高鐵,網友稱之為“牛馬夜班專列”

      上觀新聞
      2025-12-16 19:47:06
      泰國宣布禁止向柬埔寨 運輸石油及戰略物資

      泰國宣布禁止向柬埔寨 運輸石油及戰略物資

      每日經濟新聞
      2025-12-17 13:17:22
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      東契奇為湖人全隊送了100多輛電動自行車,單輛售價2995美元起

      東契奇為湖人全隊送了100多輛電動自行車,單輛售價2995美元起

      懂球帝
      2025-12-17 09:08:58
      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      二哥聊球
      2025-12-17 16:18:02
      死了將近400年,依舊爭議不休

      死了將近400年,依舊爭議不休

      我是歷史其實挺有趣
      2025-12-16 10:57:14
      母親患癌養子照顧9年,臨終給養子2萬親兒2套房,養子取款傻眼

      母親患癌養子照顧9年,臨終給養子2萬親兒2套房,養子取款傻眼

      清茶淺談
      2025-04-28 19:23:21
      純電生死戰,打掉理想千億市值

      純電生死戰,打掉理想千億市值

      市值榜
      2025-12-16 13:11:59
      一夜之間有關大師的文章正在被全網刪除,答案或許就在這里!

      一夜之間有關大師的文章正在被全網刪除,答案或許就在這里!

      清哲木觀察
      2025-12-17 10:59:57
      2025-12-17 22:31:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14122文章數 66388關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      館藏《江南春》現身拍賣市場 捐贈方:為何名畫"消失"

      頭條要聞

      館藏《江南春》現身拍賣市場 捐贈方:為何名畫"消失"

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      時尚
      健康
      旅游
      數碼
      手機

      這才是50歲女人該有的冬季穿搭,既保暖又體面,想不優雅都難

      這些新療法,讓化療不再那么痛苦

      旅游要聞

      泡對養生、泡錯傷身 泡溫泉的正確方式你知道嗎?

      數碼要聞

      主板用上木頭、皮革:技嘉X870E AERO X3D WOOD開售!定價3999元

      手機要聞

      雙12閉眼沖!一加 Ace 6T性價比封神,續航性能雙天花板!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成熟了的熟妇毛茸茸| 一本加勒比hezyo无码人妻| 久久这里都是精品一区| 国内精品久久久久久久影视麻豆| 一本a新久道| 综合AV| 与子敌伦刺激对白播放的优点| 亚洲?欧洲?中文字幕| 久久国产乱子伦免费精品无码| 美女大量吞精在线观看456| 国产传媒一区| 日本VA视频| 国产一卡二卡在线播放| 国产成人a亚洲精品网| 伊人久久五月| 少妇做爰免费视频了| 香港三级韩国三级日本三级| 91久久国产性奴调教| 精品香蕉一区二区三区| 亚洲国产精品久久青草无码| 亚洲AV高清一区二区三区尤物| av明星换脸无码精品区| 男男车车的车车网站w98免费| 中文字幕精品人妻熟女| 九九视频在线观看| 成人精品一区二区三区在线观看| 日韩AV无码电影| 久久精品免费一区二区| 丰满人妻翻云覆雨呻吟| 亚洲欧美日韩中文字幕一区二区三区| 91精品人妻一区二区三区蜜桃| 一本一道波多野结衣av黑人| 上海旅游集散中心网上订票| 无码人妻精品一区二区三区温州| 91人妻丰满熟妇Aⅴ无码| 亚洲人成网网址在线看| av一本久道久久波多野结衣| 色欲久久久天天天综合网 | 精品人妻一区二区三区浪潮在线 | 国产一区二区波多野结衣| 最新亚洲中文字幕|