<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      <span class="js_title_inner">“天下苦CUDA久矣!”KernelCAT率先掀桌,實現國產芯片無痛適配

      0
      分享至


      2026 年 1 月底,英偉達 CEO 黃仁勛再次來華,刻意親民的“菜市場外交”插曲不僅又一次引發熱議,也讓很多人回想起老黃在 2025 年 1 月,寧愿缺席美國總統特朗普就職典禮,也要來中國參加分公司年會、維護客戶的有趣往事。

      作為市值逾 4.5 萬億美元的 AI 巨頭掌門人,老黃為何如此重視中國?


      圖由 AI 生成

      這種重視的根源,在于中國 AI 產業與英偉達 GPU 及 CUDA 生態之間的雙向深度依賴。一方面,中國主流 AI 模型的訓練仍高度依賴英偉達芯片,且需在 CUDA 生態中加速迭代,以此追趕美國閉源模型的實力;另一方面,中國龐大的 AI 市場、優質的 AI 人才,以及臺積電、富士康等核心供應鏈企業,共同撐起了英偉達的龐大估值與商業霸權。

      1 智能的繁榮與底層的“枯竭”

      中國 AI 的表層繁榮有目共睹:大模型發布數量占全球 40% 以上,穩居世界第一;Qwen 登頂 Hugging Face 全球下載榜,累計下載超 10 億次;“豆包”日均活躍用戶數(DAU)破億,2025 年國產 AI 應用總下載量達 25.7 億。這一切營造出一種錯覺:中國人工智能的道路已是一片坦途。

      然而,剝開這層光鮮外衣,國產 AI 的根基卻異常脆弱。盡管本土芯片廠商在硬件設計與制造上奮力追趕,軟件生態的缺失卻成為難以逾越的鴻溝。高昂的遷移成本、對 CUDA 的路徑依賴,使得國產模型即便想用“國產芯”,也常因缺乏高效、兼容的算子支持而寸步難行。

      更嚴峻的是,這種依賴本質上是算力主權的交鋒:國際芯片巨頭每一分估值增長的背后,都可能是國內算力產業的被動與掣肘。

      要打破這一困局,關鍵不在造更多芯片,而在打通“算法—算子—硬件”之間的最后一公里,盡可能多得釋放國產芯片的理論峰值性能,建設自己的國產芯片生態。

      其中最核心的一環,正是高性能算子的開發。

      2 KernelCAT:計算加速專家級別的 Agent

      算子(Kernel),是連接 AI 算法與計算芯片的“翻譯官”:它將算法轉化為硬件可執行的指令,決定了 AI 模型的推理速度、能耗與兼容性。

      算子開發可以被理解為內核級別的編程工作,目前行業仍停留在“手工作坊”時代——開發過程極度依賴頂尖工程師的經驗與反復試錯,周期動輒數月,性能調優如同在迷霧中摸索。若把開發大模型應用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機械表”。

      如果,讓 AI 來開發算子呢?傳統大模型或知識增強型 Agent 在此類任務面前往往力不從心:它們擅長模式匹配,卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。唯有超越經驗式推理,深入建模問題本質,才能實現真正的“智能級”優化。

      正是在這一“地獄級”技術挑戰下,KernelCAT 應運而生。


      終端版

      KernelCAT 是一款本地運行的 AI Agent,它不僅是深耕算子開發和模型遷移的“計算加速專家”,也能夠勝任日常通用的全棧開發任務,KernelCAT 提供了 CLI 終端命令行版與簡潔桌面版兩種形態供開發者使用。不同于僅聚焦特定任務的工具型 Agent,KernelCAT 具備扎實的通用編程能力——不僅能理解、生成和優化內核級別代碼,也能處理常規軟件工程任務,如環境配置、依賴管理、錯誤診斷與腳本編寫,從而在復雜場景中實現端到端自主閉環。


      桌面版

      3 為國產芯片生態寫高性能算子

      在算子開發中,有一類問題很像“調參”——面對幾十上百種參數或策略組合,工程師需要找出讓算子跑得最快的那一組配置。傳統做法靠經驗試錯,費時費力,還容易踩坑。KernelCAT 引入了運籌優化的思路:把“找最優參數”這件事交給算法,讓算法去探索調優空間并收斂到最佳方案。

      以昇騰芯片上的 FlashAttentionScore 算子為例,KernelCAT 在昇騰官方示例代碼上,可以自動對該算子的分塊參數調優問題進行運籌學建模,并使用數學優化算法求解,在十幾輪迭代后就鎖定了最優配置,在多種輸入尺寸下延遲降低最高可達 22%,吞吐量提升最高近 30%,而且而整個過程無需人工干預。

      這正是 KernelCAT 的獨特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運籌優化算法的嚴謹,能夠系統搜索并收斂到最優解。智能與算法的結合,讓算子調優既靈活,又有交付保障。

      在對 KernelCAT 的另一場測試中,團隊選取了 7 個不同規模的向量加法任務,測試目標明確:在華為昇騰平臺上,直接對比華為開源算子、“黑盒”封裝的商業化算子與 KernelCAT 自研算子實現的執行效率。

      結果同樣令人振奮,在這個案例的 7 個測試規模中,KernelCAT 給出的算子版本性能均取得領先優勢,且任務完成僅僅用時 10 分鐘。這意味著,即便面對經過商業級調優的閉源實現,KernelCAT 所采用的優化方式仍具備競爭力。


      這不僅是數值層面的勝利,更是國產 AI Agent 在算子領域的一次自證。

      4 沒有堅不可破的生態,包括 CUDA

      全球范圍內,目前超過 90% 的重要 AI 訓練任務運行于英偉達 GPU 之上,推理占比亦達 80% 以上;其開發者生態覆蓋超 590 萬用戶,算子庫規模逾 400 個,深度嵌入 90% 頂級 AI 學術論文的實現流程。黃仁勛曾言:“我們創立英偉達,是為了加速軟件,芯片設計反而是次要的。”這句話揭示了一個關鍵真相:在現代計算體系中,軟件才是真正的護城河。英偉達的持續領先,源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。參考 AMD 的歷史經驗,即使在架構與制程上具備充足的競爭力,缺乏成熟的生態系統也仍然難以撼動英偉達的地位。

      在這場中美 AI 的角力中,上一次有中國企業對英偉達這只 AI 巨獸形成沖擊,并不是因為推出新款芯片,而是算法與算子帶來的效率提升。2025 年 1 月 27 日,英偉達股價暴跌近 17%,單日市值蒸發高達 5888 億美元,創下美股史上單日市值蒸發新紀錄,其主要原因是 Deepseek 通過高性能算子(尤其是 DeepGEMM)這一關鍵技術,以 1/20 的訓練成本實現了 OpenAI O1 級的性能,這成功地證明了大模型性能≠堆砌芯片性能和數量,而是取決于算法創新 + 算子優化 + 硬件適配的協同。

      如果國產芯片廠商也能擁有足夠豐富的高性能算子庫和生態開發者,突破英偉達 CUDA 現有生態的桎梏,讓更多的國產模型“回家”,那么對其商業帝國將產生難以估量的沖擊,甚至有可能成為中美科技博弈的關鍵勝負手。

      KernelCAT 團隊在讓國產模型“遷移回家”的場景下做了大量嘗試:

      以 DeepSeek-OCR-2 模型在華為昇騰 910B2 NPU 上的部署為例,讓我們看看 KernelCAT 是如何重塑工作范式的:

      1. 對抗“版本地獄”:KernelCAT 對任務目標和限制條件有著深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 實現,通過精準的依賴識別和補丁注入,解決了 vLLM、torch 和 torch_npu 的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩定的生產環境,結合基礎 Docker 鏡像即可實現模型的開箱即用。

      2. 準確修補:它敏銳地識別出原版 vLLM 的 MOE 層依賴 CUDA 專有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 實現,并果斷通過插件包進行調用替換,讓模型在國產芯片上"說上了母語"。

      3. 實現 35 倍加速:在引入 vllm-ascend 原生 MOE 實現補丁后,vLLM 在高并發下的吞吐量飆升至 550.45toks/s,相比 Transformers 方案實現了驚人的 35 倍加速,且在繼續優化中。

      4. 無需人工大量介入:在這種復雜任務目標下,KernelCAT 可以自己規劃和完成任務,無需研發提供大量提示詞指導模型工作。

      這意味著,原本需要頂尖工程師團隊花費數周才能完成進行的適配工作,現在可以縮短至小時級(包含模型下載、環境構建的時間);同時讓國產芯片從“能跑”到“飛起”,實現 35 倍的加速。KernelCAT 讓國產芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優化,承載頂級多模態模型推理任務的性能引擎。

      “天下苦 CUDA 久矣”——這句話曾是行業的無奈,但 KernelCAT 的出現,似乎讓國產 AI 產業看到了一種新的可能。它不只是國內團隊在 AI Agent 技術上的突破,更是一次對算力主權的鄭重宣示:我們不再滿足于在別人的地基上蓋樓,而是要打好屬于自己的 AI“地基”。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “百分百的死亡率,你在猶豫什么”這些神評點醒了200萬焦慮的人

      “百分百的死亡率,你在猶豫什么”這些神評點醒了200萬焦慮的人

      夜深愛雜談
      2026-02-03 22:00:16
      她前夫是新四軍副軍長,第二任丈夫是副總理,女婿更是官至正國級

      她前夫是新四軍副軍長,第二任丈夫是副總理,女婿更是官至正國級

      芊芊子吟
      2026-02-23 13:30:07
      在七千多的養老院住了一年才明白:再貴的養老院,也買不來這3樣

      在七千多的養老院住了一年才明白:再貴的養老院,也買不來這3樣

      小馬達情感故事
      2026-02-10 11:50:09
      宗馥莉現身上海高級餐廳,與外籍男子共餐攜女同行似一家三口

      宗馥莉現身上海高級餐廳,與外籍男子共餐攜女同行似一家三口

      丁隗解說
      2026-02-22 23:48:22
      68歲大媽相親,怕大爺不正經,稱以后要分房睡,大爺:那要你干嘛

      68歲大媽相親,怕大爺不正經,稱以后要分房睡,大爺:那要你干嘛

      談史論天地
      2026-02-21 06:40:43
      今年養老金或迎好消息,養老金低于3000元,補發7個月能漲500嗎?

      今年養老金或迎好消息,養老金低于3000元,補發7個月能漲500嗎?

      另子維愛讀史
      2026-02-23 10:26:25
      龐崢麟落選男籃出征名單引熱議!球迷打抱不平“選人標準惹爭議”

      龐崢麟落選男籃出征名單引熱議!球迷打抱不平“選人標準惹爭議”

      狼叔評論
      2026-02-23 11:10:08
      閃電航打包出售ipad,全都是蘋果牌

      閃電航打包出售ipad,全都是蘋果牌

      中國民航人
      2026-02-20 19:54:05
      河北唐山“釣帝”黑大爺因病去世,享年75歲,家屬:已舉辦告別儀式;此前因戶外垂釣多年皮膚被曬成“老抽色”在網絡上走紅

      河北唐山“釣帝”黑大爺因病去世,享年75歲,家屬:已舉辦告別儀式;此前因戶外垂釣多年皮膚被曬成“老抽色”在網絡上走紅

      揚子晚報
      2026-02-22 09:48:41
      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      琴聲飛揚
      2026-01-20 14:25:10
      34歲鄭爽近況被曝!美國生活被扒底朝天, 毀掉她的,根本不是張

      34歲鄭爽近況被曝!美國生活被扒底朝天, 毀掉她的,根本不是張

      丹妮觀
      2026-02-23 11:55:36
      2026年1月特斯拉全球銷量:預估不到8萬

      2026年1月特斯拉全球銷量:預估不到8萬

      藍色海邊
      2026-02-23 12:43:00
      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個要求

      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個要求

      明月清風閣
      2026-02-15 14:55:05
      離譜!英超巨星當眾甩臉主帥,離隊信號直指曼聯

      離譜!英超巨星當眾甩臉主帥,離隊信號直指曼聯

      瀾歸序
      2026-02-23 01:55:22
      克林根:在三分方面我付出了很多努力;每晚我都會拼盡全力

      克林根:在三分方面我付出了很多努力;每晚我都會拼盡全力

      懂球帝
      2026-02-23 12:36:06
      日本徹底倒向美國,76%的民眾反華!中國已做好最壞準備

      日本徹底倒向美國,76%的民眾反華!中國已做好最壞準備

      小影的娛樂
      2026-02-23 12:58:12
      81年,原軍統特務寫信要求享離休待遇,鄧穎超批示:不要虧待了他

      81年,原軍統特務寫信要求享離休待遇,鄧穎超批示:不要虧待了他

      春秋硯
      2026-02-12 07:00:07
      震撼!美國冰球門將61分鐘撲救41次:誕生世界名畫 助球隊2-1奪金

      震撼!美國冰球門將61分鐘撲救41次:誕生世界名畫 助球隊2-1奪金

      風過鄉
      2026-02-23 08:33:26
      爭議!12歲南亞裔球員遭種族歧視 校方:生在香港說粵語 從未留級

      爭議!12歲南亞裔球員遭種族歧視 校方:生在香港說粵語 從未留級

      念洲
      2026-02-22 10:09:16
      羊肉被關注!研究發現:腦梗患者吃羊肉,用不了多久,或有3益處

      羊肉被關注!研究發現:腦梗患者吃羊肉,用不了多久,或有3益處

      阿兵科普
      2026-02-07 21:11:54
      2026-02-23 14:19:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12068文章數 51762關注度
      往期回顧 全部

      科技要聞

      騰訊字節,“火拼”漫劇

      頭條要聞

      7名中國游客溺亡于貝加爾湖 31歲幸存者被救細節披露

      頭條要聞

      7名中國游客溺亡于貝加爾湖 31歲幸存者被救細節披露

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經要聞

      結婚五金邁入10萬大關 年輕人結婚更難了

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      家居
      手機
      本地
      公開課
      軍事航空

      家居要聞

      本真棲居 愛暖伴流年

      手機要聞

      榮耀Magic V6拍攝樣張曝光,確認搭載第五代驍龍8至尊版芯片

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍重兵集結蓄力作戰之際 新一輪美伊談判時間“敲定”

      無障礙瀏覽 進入關懷版