
2026 年 1 月底,英偉達 CEO 黃仁勛再次來華,刻意親民的“菜市場外交”插曲不僅又一次引發熱議,也讓很多人回想起老黃在 2025 年 1 月,寧愿缺席美國總統特朗普就職典禮,也要來中國參加分公司年會、維護客戶的有趣往事。
作為市值逾 4.5 萬億美元的 AI 巨頭掌門人,老黃為何如此重視中國?
![]()
圖由 AI 生成
這種重視的根源,在于中國 AI 產業與英偉達 GPU 及 CUDA 生態之間的雙向深度依賴。一方面,中國主流 AI 模型的訓練仍高度依賴英偉達芯片,且需在 CUDA 生態中加速迭代,以此追趕美國閉源模型的實力;另一方面,中國龐大的 AI 市場、優質的 AI 人才,以及臺積電、富士康等核心供應鏈企業,共同撐起了英偉達的龐大估值與商業霸權。
1 智能的繁榮與底層的“枯竭”
中國 AI 的表層繁榮有目共睹:大模型發布數量占全球 40% 以上,穩居世界第一;Qwen 登頂 Hugging Face 全球下載榜,累計下載超 10 億次;“豆包”日均活躍用戶數(DAU)破億,2025 年國產 AI 應用總下載量達 25.7 億。這一切營造出一種錯覺:中國人工智能的道路已是一片坦途。
然而,剝開這層光鮮外衣,國產 AI 的根基卻異常脆弱。盡管本土芯片廠商在硬件設計與制造上奮力追趕,軟件生態的缺失卻成為難以逾越的鴻溝。高昂的遷移成本、對 CUDA 的路徑依賴,使得國產模型即便想用“國產芯”,也常因缺乏高效、兼容的算子支持而寸步難行。
更嚴峻的是,這種依賴本質上是算力主權的交鋒:國際芯片巨頭每一分估值增長的背后,都可能是國內算力產業的被動與掣肘。
要打破這一困局,關鍵不在造更多芯片,而在打通“算法—算子—硬件”之間的最后一公里,盡可能多得釋放國產芯片的理論峰值性能,建設自己的國產芯片生態。
其中最核心的一環,正是高性能算子的開發。
2 KernelCAT:計算加速專家級別的 Agent
算子(Kernel),是連接 AI 算法與計算芯片的“翻譯官”:它將算法轉化為硬件可執行的指令,決定了 AI 模型的推理速度、能耗與兼容性。
算子開發可以被理解為內核級別的編程工作,目前行業仍停留在“手工作坊”時代——開發過程極度依賴頂尖工程師的經驗與反復試錯,周期動輒數月,性能調優如同在迷霧中摸索。若把開發大模型應用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機械表”。
如果,讓 AI 來開發算子呢?傳統大模型或知識增強型 Agent 在此類任務面前往往力不從心:它們擅長模式匹配,卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。唯有超越經驗式推理,深入建模問題本質,才能實現真正的“智能級”優化。
正是在這一“地獄級”技術挑戰下,KernelCAT 應運而生。
![]()
終端版
KernelCAT 是一款本地運行的 AI Agent,它不僅是深耕算子開發和模型遷移的“計算加速專家”,也能夠勝任日常通用的全棧開發任務,KernelCAT 提供了 CLI 終端命令行版與簡潔桌面版兩種形態供開發者使用。不同于僅聚焦特定任務的工具型 Agent,KernelCAT 具備扎實的通用編程能力——不僅能理解、生成和優化內核級別代碼,也能處理常規軟件工程任務,如環境配置、依賴管理、錯誤診斷與腳本編寫,從而在復雜場景中實現端到端自主閉環。
![]()
桌面版
3 為國產芯片生態寫高性能算子
在算子開發中,有一類問題很像“調參”——面對幾十上百種參數或策略組合,工程師需要找出讓算子跑得最快的那一組配置。傳統做法靠經驗試錯,費時費力,還容易踩坑。KernelCAT 引入了運籌優化的思路:把“找最優參數”這件事交給算法,讓算法去探索調優空間并收斂到最佳方案。
以昇騰芯片上的 FlashAttentionScore 算子為例,KernelCAT 在昇騰官方示例代碼上,可以自動對該算子的分塊參數調優問題進行運籌學建模,并使用數學優化算法求解,在十幾輪迭代后就鎖定了最優配置,在多種輸入尺寸下延遲降低最高可達 22%,吞吐量提升最高近 30%,而且而整個過程無需人工干預。
這正是 KernelCAT 的獨特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運籌優化算法的嚴謹,能夠系統搜索并收斂到最優解。智能與算法的結合,讓算子調優既靈活,又有交付保障。
在對 KernelCAT 的另一場測試中,團隊選取了 7 個不同規模的向量加法任務,測試目標明確:在華為昇騰平臺上,直接對比華為開源算子、“黑盒”封裝的商業化算子與 KernelCAT 自研算子實現的執行效率。
結果同樣令人振奮,在這個案例的 7 個測試規模中,KernelCAT 給出的算子版本性能均取得領先優勢,且任務完成僅僅用時 10 分鐘。這意味著,即便面對經過商業級調優的閉源實現,KernelCAT 所采用的優化方式仍具備競爭力。
![]()
這不僅是數值層面的勝利,更是國產 AI Agent 在算子領域的一次自證。
4 沒有堅不可破的生態,包括 CUDA
全球范圍內,目前超過 90% 的重要 AI 訓練任務運行于英偉達 GPU 之上,推理占比亦達 80% 以上;其開發者生態覆蓋超 590 萬用戶,算子庫規模逾 400 個,深度嵌入 90% 頂級 AI 學術論文的實現流程。黃仁勛曾言:“我們創立英偉達,是為了加速軟件,芯片設計反而是次要的。”這句話揭示了一個關鍵真相:在現代計算體系中,軟件才是真正的護城河。英偉達的持續領先,源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。參考 AMD 的歷史經驗,即使在架構與制程上具備充足的競爭力,缺乏成熟的生態系統也仍然難以撼動英偉達的地位。
在這場中美 AI 的角力中,上一次有中國企業對英偉達這只 AI 巨獸形成沖擊,并不是因為推出新款芯片,而是算法與算子帶來的效率提升。2025 年 1 月 27 日,英偉達股價暴跌近 17%,單日市值蒸發高達 5888 億美元,創下美股史上單日市值蒸發新紀錄,其主要原因是 Deepseek 通過高性能算子(尤其是 DeepGEMM)這一關鍵技術,以 1/20 的訓練成本實現了 OpenAI O1 級的性能,這成功地證明了大模型性能≠堆砌芯片性能和數量,而是取決于算法創新 + 算子優化 + 硬件適配的協同。
如果國產芯片廠商也能擁有足夠豐富的高性能算子庫和生態開發者,突破英偉達 CUDA 現有生態的桎梏,讓更多的國產模型“回家”,那么對其商業帝國將產生難以估量的沖擊,甚至有可能成為中美科技博弈的關鍵勝負手。
KernelCAT 團隊在讓國產模型“遷移回家”的場景下做了大量嘗試:
以 DeepSeek-OCR-2 模型在華為昇騰 910B2 NPU 上的部署為例,讓我們看看 KernelCAT 是如何重塑工作范式的:
對抗“版本地獄”:KernelCAT 對任務目標和限制條件有著深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 實現,通過精準的依賴識別和補丁注入,解決了 vLLM、torch 和 torch_npu 的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩定的生產環境,結合基礎 Docker 鏡像即可實現模型的開箱即用。
準確修補:它敏銳地識別出原版 vLLM 的 MOE 層依賴 CUDA 專有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 實現,并果斷通過插件包進行調用替換,讓模型在國產芯片上"說上了母語"。
實現 35 倍加速:在引入 vllm-ascend 原生 MOE 實現補丁后,vLLM 在高并發下的吞吐量飆升至 550.45toks/s,相比 Transformers 方案實現了驚人的 35 倍加速,且在繼續優化中。
無需人工大量介入:在這種復雜任務目標下,KernelCAT 可以自己規劃和完成任務,無需研發提供大量提示詞指導模型工作。
這意味著,原本需要頂尖工程師團隊花費數周才能完成進行的適配工作,現在可以縮短至小時級(包含模型下載、環境構建的時間);同時讓國產芯片從“能跑”到“飛起”,實現 35 倍的加速。KernelCAT 讓國產芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優化,承載頂級多模態模型推理任務的性能引擎。
“天下苦 CUDA 久矣”——這句話曾是行業的無奈,但 KernelCAT 的出現,似乎讓國產 AI 產業看到了一種新的可能。它不只是國內團隊在 AI Agent 技術上的突破,更是一次對算力主權的鄭重宣示:我們不再滿足于在別人的地基上蓋樓,而是要打好屬于自己的 AI“地基”。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.