網易首頁 > 網易號 > 正文申請入駐

<span class="js_title_inner">“天下苦CUDA久矣！”KernelCAT率先掀桌，實現國產芯片無痛適配

2026-01-30 17:23:14　來源: InfoQ

北京舉報

分享至

2026 年 1 月底，英偉達 CEO 黃仁勛再次來華，刻意親民的“菜市場外交”插曲不僅又一次引發熱議，也讓很多人回想起老黃在 2025 年 1 月，寧愿缺席美國總統特朗普就職典禮，也要來中國參加分公司年會、維護客戶的有趣往事。

作為市值逾 4.5 萬億美元的 AI 巨頭掌門人，老黃為何如此重視中國？

圖由 AI 生成

這種重視的根源，在于中國 AI 產業與英偉達 GPU 及 CUDA 生態之間的雙向深度依賴。一方面，中國主流 AI 模型的訓練仍高度依賴英偉達芯片，且需在 CUDA 生態中加速迭代，以此追趕美國閉源模型的實力；另一方面，中國龐大的 AI 市場、優質的 AI 人才，以及臺積電、富士康等核心供應鏈企業，共同撐起了英偉達的龐大估值與商業霸權。

1 智能的繁榮與底層的“枯竭”

中國 AI 的表層繁榮有目共睹：大模型發布數量占全球 40% 以上，穩居世界第一；Qwen 登頂 Hugging Face 全球下載榜，累計下載超 10 億次；“豆包”日均活躍用戶數（DAU）破億，2025 年國產 AI 應用總下載量達 25.7 億。這一切營造出一種錯覺：中國人工智能的道路已是一片坦途。

然而，剝開這層光鮮外衣，國產 AI 的根基卻異常脆弱。盡管本土芯片廠商在硬件設計與制造上奮力追趕，軟件生態的缺失卻成為難以逾越的鴻溝。高昂的遷移成本、對 CUDA 的路徑依賴，使得國產模型即便想用“國產芯”，也常因缺乏高效、兼容的算子支持而寸步難行。

更嚴峻的是，這種依賴本質上是算力主權的交鋒：國際芯片巨頭每一分估值增長的背后，都可能是國內算力產業的被動與掣肘。

要打破這一困局，關鍵不在造更多芯片，而在打通“算法—算子—硬件”之間的最后一公里，盡可能多得釋放國產芯片的理論峰值性能，建設自己的國產芯片生態。

其中最核心的一環，正是高性能算子的開發。

2 KernelCAT：計算加速專家級別的 Agent

算子（Kernel），是連接 AI 算法與計算芯片的“翻譯官”：它將算法轉化為硬件可執行的指令，決定了 AI 模型的推理速度、能耗與兼容性。

算子開發可以被理解為內核級別的編程工作，目前行業仍停留在“手工作坊”時代——開發過程極度依賴頂尖工程師的經驗與反復試錯，周期動輒數月，性能調優如同在迷霧中摸索。若把開發大模型應用比作“在精裝修的樣板間里擺放家具”，那么編寫底層算子的難度，無異于“在深海中戴著沉重的手銬，徒手組裝一塊精密機械表”。

如果，讓 AI 來開發算子呢？傳統大模型或知識增強型 Agent 在此類任務面前往往力不從心：它們擅長模式匹配，卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。唯有超越經驗式推理，深入建模問題本質，才能實現真正的“智能級”優化。

正是在這一“地獄級”技術挑戰下，KernelCAT 應運而生。

終端版

KernelCAT 是一款本地運行的 AI Agent，它不僅是深耕算子開發和模型遷移的“計算加速專家”，也能夠勝任日常通用的全棧開發任務，KernelCAT 提供了 CLI 終端命令行版與簡潔桌面版兩種形態供開發者使用。不同于僅聚焦特定任務的工具型 Agent，KernelCAT 具備扎實的通用編程能力——不僅能理解、生成和優化內核級別代碼，也能處理常規軟件工程任務，如環境配置、依賴管理、錯誤診斷與腳本編寫，從而在復雜場景中實現端到端自主閉環。

桌面版

3 為國產芯片生態寫高性能算子

在算子開發中，有一類問題很像“調參”——面對幾十上百種參數或策略組合，工程師需要找出讓算子跑得最快的那一組配置。傳統做法靠經驗試錯，費時費力，還容易踩坑。KernelCAT 引入了運籌優化的思路：把“找最優參數”這件事交給算法，讓算法去探索調優空間并收斂到最佳方案。

以昇騰芯片上的 FlashAttentionScore 算子為例，KernelCAT 在昇騰官方示例代碼上，可以自動對該算子的分塊參數調優問題進行運籌學建模，并使用數學優化算法求解，在十幾輪迭代后就鎖定了最優配置，在多種輸入尺寸下延遲降低最高可達 22%，吞吐量提升最高近 30%，而且而整個過程無需人工干預。

這正是 KernelCAT 的獨特之處：它不僅具備大模型的智能，能夠理解代碼、生成方案；還擁有運籌優化算法的嚴謹，能夠系統搜索并收斂到最優解。智能與算法的結合，讓算子調優既靈活，又有交付保障。

在對 KernelCAT 的另一場測試中，團隊選取了 7 個不同規模的向量加法任務，測試目標明確：在華為昇騰平臺上，直接對比華為開源算子、“黑盒”封裝的商業化算子與 KernelCAT 自研算子實現的執行效率。

結果同樣令人振奮，在這個案例的 7 個測試規模中，KernelCAT 給出的算子版本性能均取得領先優勢，且任務完成僅僅用時 10 分鐘。這意味著，即便面對經過商業級調優的閉源實現，KernelCAT 所采用的優化方式仍具備競爭力。

這不僅是數值層面的勝利，更是國產 AI Agent 在算子領域的一次自證。

4 沒有堅不可破的生態，包括 CUDA

全球范圍內，目前超過 90% 的重要 AI 訓練任務運行于英偉達 GPU 之上，推理占比亦達 80% 以上；其開發者生態覆蓋超 590 萬用戶，算子庫規模逾 400 個，深度嵌入 90% 頂級 AI 學術論文的實現流程。黃仁勛曾言：“我們創立英偉達，是為了加速軟件，芯片設計反而是次要的。”這句話揭示了一個關鍵真相：在現代計算體系中，軟件才是真正的護城河。英偉達的持續領先，源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。參考 AMD 的歷史經驗，即使在架構與制程上具備充足的競爭力，缺乏成熟的生態系統也仍然難以撼動英偉達的地位。

在這場中美 AI 的角力中，上一次有中國企業對英偉達這只 AI 巨獸形成沖擊，并不是因為推出新款芯片，而是算法與算子帶來的效率提升。2025 年 1 月 27 日，英偉達股價暴跌近 17%，單日市值蒸發高達 5888 億美元，創下美股史上單日市值蒸發新紀錄，其主要原因是 Deepseek 通過高性能算子（尤其是 DeepGEMM）這一關鍵技術，以 1/20 的訓練成本實現了 OpenAI O1 級的性能，這成功地證明了大模型性能≠堆砌芯片性能和數量，而是取決于算法創新 + 算子優化 + 硬件適配的協同。

如果國產芯片廠商也能擁有足夠豐富的高性能算子庫和生態開發者，突破英偉達 CUDA 現有生態的桎梏，讓更多的國產模型“回家”，那么對其商業帝國將產生難以估量的沖擊，甚至有可能成為中美科技博弈的關鍵勝負手。

KernelCAT 團隊在讓國產模型“遷移回家”的場景下做了大量嘗試：

以 DeepSeek-OCR-2 模型在華為昇騰 910B2 NPU 上的部署為例，讓我們看看 KernelCAT 是如何重塑工作范式的：

對抗“版本地獄”：KernelCAT 對任務目標和限制條件有著深度理解，基于 DeepSeek-OCR-2 官方的 CUDA 實現，通過精準的依賴識別和補丁注入，解決了 vLLM、torch 和 torch_npu 的各個依賴庫間版本互鎖的三角矛盾，硬生生從零搭建起了一套穩定的生產環境，結合基礎 Docker 鏡像即可實現模型的開箱即用。
準確修補：它敏銳地識別出原版 vLLM 的 MOE 層依賴 CUDA 專有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 實現，并果斷通過插件包進行調用替換，讓模型在國產芯片上"說上了母語"。
實現 35 倍加速：在引入 vllm-ascend 原生 MOE 實現補丁后，vLLM 在高并發下的吞吐量飆升至 550.45toks/s，相比 Transformers 方案實現了驚人的 35 倍加速，且在繼續優化中。
無需人工大量介入：在這種復雜任務目標下，KernelCAT 可以自己規劃和完成任務，無需研發提供大量提示詞指導模型工作。

這意味著，原本需要頂尖工程師團隊花費數周才能完成進行的適配工作，現在可以縮短至小時級（包含模型下載、環境構建的時間）；同時讓國產芯片從“能跑”到“飛起”，實現 35 倍的加速。KernelCAT 讓國產芯片不再是被“封印”的算力廢鐵，而是可以通過深度工程優化，承載頂級多模態模型推理任務的性能引擎。

“天下苦 CUDA 久矣”——這句話曾是行業的無奈，但 KernelCAT 的出現，似乎讓國產 AI 產業看到了一種新的可能。它不只是國內團隊在 AI Agent 技術上的突破，更是一次對算力主權的鄭重宣示：我們不再滿足于在別人的地基上蓋樓，而是要打好屬于自己的 AI“地基”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.