英偉達CUDA剛搞了個大動作,20年來最重磅的更新說上就上,核心亮點是CUDATile技術,以后開發者用Python就能寫GPU內核代碼,不用再死磕C++了。
這消息一出來,芯片圈傳奇人物Jim Keller直接發問,這是不是要終結CUDA的護城河?這事在AI圈炸開了鍋,有人覺得是開發者的福音,也有人猜英偉達在玩新套路。
![]()
今天就順著這事,好好聊聊這波更新到底藏著啥門道。
CUDA這東西,懂行的都知道是英偉達的王牌,2006年一推出,直接開啟了通用GPU計算的黃金時代,這二十年來,開發者想讓GPU干活,基本都得靠它。
本來大家都習慣了用C++寫代碼,結果這次CUDA13.1更新,居然先給Python開了綠燈,C++支持反而往后排了。
![]()
本來以為這波更新是給開發者松綁,后來發現英偉達算盤打得更精。
以前用CUDA寫代碼,得用SIMT模型,簡單說就是程序員得指揮成千上萬個線程干活。
就像包工頭帶著32個工人搬磚,每個工人管一個像素點,看著整齊,真遇到矩陣運算這種復雜活,就得手動協調所有工人,一步錯就全亂。
![]()
AI時代全是矩陣運算,這操作難度直接拉滿,也難怪Jim Keller說CUDA是“沼澤”,陷進去就難出來。
CUDATile一出來,直接把這套邏輯推翻了,它不用線程當基本單位,改用“瓦片”,說白了就是把大數據切成小塊,開發者不用管底層硬件怎么運作,只需要告訴電腦這些小塊該怎么運算就行。
打個比方,以前是親自下場指揮每個工人,現在是定好小組任務,剩下的交給組長安排。
![]()
而且英偉達還搞了個TileIR虛擬指令集,不管是老款Hopper顯卡,還是新款Blackwell,寫好的代碼都能直接用,不用反復調優。
這波操作看著是降低了入門門檻,其實藏著和OpenAI Triton較勁的意思。
Triton是開源框架,初衷就是讓開發者擺脫英偉達的閉源庫,兩者思路挺像,都是按數據塊編程,但CUDA Tile綁定了自家硬件的專屬邏輯,這波對決還真不好說誰能贏。
![]()
這么大的技術更新,自然躲不過行業大佬的關注,Jim Keller就是第一個站出來質疑的人。
可能有人不知道他是誰,這人可不是隨便發表觀點的主,堪稱芯片圈的“掃地僧”,電腦里的x86-64指令集,他是奠基人之一,現在幾乎所有桌面和服務器CPU都在用。
當年AMD快撐不下去的時候,他帶著團隊搞出Zen架構,直接讓AMD逆襲,能和Intel平起平坐,后來去了蘋果,參與研發A4、A5芯片,給iPhone自研芯片鋪了路,才有了后來的M系列芯片。
![]()
現在他是Tenstorrent的CEO,自家芯片也用瓦片架構,難怪會盯著CUDATile不放。
JimKeller的質疑點很明確,現在大家都開始用瓦片架構了,AI內核移植起來會更簡單,CUDA的護城河不就沒用了?這話說得有道理,但他可能忘了CUDA的根基有多深。
二十年來,全球上千萬開發者都在靠CUDA吃飯,相關的優化庫就有兩千多個,不管是做AI訓練還是科學計算,都繞不開這些資源,更關鍵的是,很多公司的核心代碼早就和CUDA深度綁定了。
![]()
想把這些代碼遷移到其他平臺,不是改改語法就行,得花大量時間和金錢,很少有公司愿意這么折騰。
Jim Keller之前就吐槽CUDA是“沼澤”,復雜到讓人脫身不得,可這次CUDATile把復雜度藏到了底層,看似解決了“沼澤”問題,實則讓開發者更離不開它的生態。
Jim Keller擔心的跨廠商移植問題,其實得分兩面看,先說說英偉達自家的硬件,以前從老款顯卡換到新款,代碼往往得重新調優,不少開發者為此頭疼。
![]()
現在有了TileIR,寫好的代碼能在不同代際的英偉達顯卡上無縫運行,這確實解決了大問題。
但跨廠商移植就不一樣了,AMD的MI300也用瓦片架構,按理說代碼移植應該容易些,可實際情況并非如此。
有創業公司試過把CUDATile寫的代碼搬到AMD芯片上,結果發現大半代碼得重構。
![]()
為啥會這樣?因為CUDATile的底層邏輯和英偉達的硬件深度綁定,里面的專屬語義在其他廠商的芯片上根本不兼容。
英偉達這波操作挺聰明,它降低入門門檻,讓更多開發者用Python就能上手,其實是在擴大自己的生態圈子。
開發者進來之后,會發現CUDA的生態太完善了,不管是優化庫還是技術支持,都比其他平臺靠譜,等大家把代碼、項目都建在這個生態上,再想遷移就難了。
![]()
AMD的ROCm生態一直在模仿CUDA,但支持的庫數量差了一大截Intel的One API想搞統一接口,可硬件性能跟不上,開發者也不買賬。
Jim Keller的Tens torrent雖然在推開源瓦片架構標準,但影響力還遠遠不夠。
如此看來,AI編程領域的“易用性”和“開放性”一直存在矛盾,開發者想用上簡單好?的工具,就難免被生態綁定,想追求開放性,又得犧牲部分性能和便利性。
![]()
CUDATile這波更新,根本不是拆除護城河,而是把護城河升級了。
以前的護城河是高門檻,攔住了不少開發者現在英偉達把門檻降低,讓大家輕松進來,然后用完善的生態、專屬的技術把人留住。
進來之后才發現,里面的“迷宮”早就建好,想出去可就沒那么容易了。
![]()
JimKeller的質疑有他的道理,但他可能低估了生態的粘性,AI時代的技術護城河,早就不是單一的硬件或軟件,而是“硬件-軟件-開發者”形成的閉環。
短期內,CUDA的壟斷地位很難被撼動,至于長期會不會有新的變化,就得看開源框架和其他廠商能不能找到破局的辦法。
但就目前來看,英偉達這步棋,走得確實夠妙。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.