英偉達推出 CUDA 軟件棧最大規模升級之一,芯片架構傳奇人物吉姆?凱勒認為,此舉或宣告該軟件的獨家壟斷時代走向終結。
英偉達CUDA 全新升級:人人皆可輕松上手 GPU 編程
毫無疑問,在當下人工智能熱潮席卷的背景下,面向開發者打造生成式 AI 工作流所需的專屬函數庫與框架時,CUDA 堪稱英偉達的 “定海神針”。迄今為止,尚無任何企業成功復刻出同等級別的軟件棧。在此基礎上,英偉達對 CUDA 進行重大更新,推出CUDA Tile功能,將傳統的單指令多線程(SIMT)架構,轉向基于分塊(tile-based)的全新編程范式。下文將深入解析此次更新,而芯片架構大師吉姆?凱勒則指出,這一變革或將打破 CUDA 的壁壘優勢。
在本次更新之前,程序員需手動微調各類參數—— 包括分塊尺寸、共享內存數據加載量,以及 GPU 執行任務所需的計算資源分配;而 CUDA Tile 的問世,徹底顛覆了這一格局。英偉達不僅引入分塊化編程模型,還打造出全新的底層虛擬機Tile IR,將 GPU 視作分塊處理器運行。這一設計讓程序員得以聚焦核心邏輯,無需再為 GPU 底層復雜架構耗費心力。
通過分塊化方案,英偉達大幅減少了人工優化的工作量,轉而將重心放在高規整度運算上,例如結構化矩陣運算與卷積運算。該功能的核心優勢在于,大幅降低 GPU 編程門檻,使其受眾范圍得到空前拓展。由于算法以抽象化形式呈現,GPU 的各項參數將由內置編譯器自動決策。當然,相較于底層代碼直接實現,CUDA Tile 的性能表現略遜一籌,但它卻是英偉達推動 AI 技術普及的關鍵舉措。
![]()
吉姆?凱勒認為,CUDA Tile 將顯著降低代碼向 AMD 等其他廠商 GPU 移植的難度,背后存在兩大核心原因:其一,分塊化技術早已是行業通用方案,被 Triton 等主流框架廣泛采用。這意味著,代碼從 CUDA 遷移至 Triton,再進一步適配 AMD AI 芯片的可行性將大幅提升;其二,抽象層級的提升,讓開發者無需再編寫針對特定架構的 CUDA 代碼,從理論上極大簡化了跨平臺移植流程。
![]()
但也有分析師認為,上述觀點恰恰相反——CUDA Tile 非但沒有削弱,反而加固了英偉達的護城河。究其根本,Tile IR 等核心底層技術均針對英偉達硬件語義深度優化。因此,盡管代碼移植的門檻有所降低,實際落地適配的復雜度依然居高不下。歸根結底,英偉達通過降低 CUDA 編程門檻,實則進一步鞏固了自身在 CUDA 軟件棧生態的主導地位。這也是此次更新被業界譽為GPU 編程領域革命性突破的核心原因。
50份好禮!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.