<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CUDA護城河破了?AI暴力直出82%算子,開發徹底告別手搓時代

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】 在 Claude Code 30 分鐘遷移 CUDA 引發熱議的背后,眾智 FlagOS 社區已經給出了一條更系統的答案:通過 KernelGen 與統一編譯器 FlagTree,讓算子在多種 AI 芯片上實現自動生成、驗證與優化,真正降低跨芯片軟件遷移成本。

      圍繞「CUDA 護城河是否松動」的討論,本質指向一個更現實的問題:

      算子能否在不同芯片上被自動生成、正確運行,并具備可用性能?


      算子生成綜述(https://arxiv.org/abs/2601.15727)

      算子自動生成,已經跑在多芯片上了

      對此,眾智 FlagOS 社區在2026年1月初推出了升級版KernelGen——一個支持多種AI芯片的高性能 Triton 算子生成自動化工具,并在真實多芯片環境下完成了系統性評測。

      從實際數據來看,KernelGen 已不再停留在概念或 Demo 階段:

      • 生成可編譯運行算子的成功率(生成成功率):82%

      • 整體算子數值準確性通過(執行正確率):62%

      • 覆蓋英偉達,以及華為、摩爾、海光、天數等多款國產 AI 芯片

      這里所說的「生成成功率」,是指代碼能編譯、能運行。但與普通代碼生成不同,算子生成對數學精度提出了更為嚴苛的要求:需要在多種輸入變化條件下,始終保持高精度、可復現的一致數值結果,這也正是文中所強調的「執行正確率」。

      如果說「生成成功率」關注的是算子是否能編譯、能運行,那么真正的技術門檻在于是否能跑得對。在多種芯片架構并存的場景下,這一挑戰被進一步放大——當同一份算子代碼需要同時適配華為、摩爾線程、海光、天數等架構各異的芯片時,數值精度、舍入策略、指令調度順序、緩存層級等細微差異,都可能導致結果偏差,甚至引發正確性失效。

      一次生成、一次編譯,在多芯片平臺上實現數值一致、結果可驗證,才是算子自動生成真正需要跨越的核心門檻。

      這些結果表明,算子自動生成在多芯片環境下已經具備可行性與工程實用價值。

      實驗與實現細節:KernelGen是如何工作的?

      實現原理:從「寫算子」到「生產算子」

      KernelGen 的目標并非輔助開發者寫代碼,而是覆蓋算子從需求到落地的完整生命周期

      • 輸入層:用戶可通過自然語言、數學公式或已有實現描述算子需求

      • 生成層:基于大模型與智能體技術,理解算子語義并自動生成 Triton 內核

      • 驗證層:自動構建測試用例,在目標芯片上與 PyTorch reference 實現進行嚴格的數值一致性校驗

      • 評估與優化層:對生成算子進行性能評測,量化加速比,并通過自動化調優持續優化執行效率


      KernelGen 網站地址:https://kernelgen.flagos.io,用戶在對話框里僅需輸入自然語言、數學公式或是已有實現表達算子開發需求

      這一流程的核心目標是:

      將算子開發從「專家手工活」,轉變為可復制、可擴展的工程流程。

      為什么必須與 FlagOS / FlagTree 協同?

      在多芯片場景下,僅生成算子代碼并不足以解決工程問題,不同 AI 芯片在以下方面差異顯著:

      • 并行模型與計算單元組織方式

      • 內存層級與訪存語義

      • 指令集與編譯穩定性

      因此,KernelGen 從設計之初就被納入FlagOS 生態,并與統一 AI 編譯器FlagTree深度協同:

      • 由 FlagTree 提供統一的硬件抽象與編譯基礎

      • 將硬件差異盡可能收斂在編譯器的中間表示層

      • 提升算子在多芯片環境下的編譯性能與正確性

      這也是算子自動生成首次具備跨芯片工程可行性的關鍵前提。

      FlagTree:支撐算子自動生成的統一AI編譯器底座

      KernelGen 能夠在多芯片環境下實現算子自動生成與驗證,并不只是模型能力的結果,其關鍵支撐來自統一AI編譯器 FlagTree。

      FlagTree 是眾智 FlagOS 社區長期推進的統一編譯器項目。從2025 年 3 月發布 v0.1,到2026 年 1 月 5 日發布 v0.4,已逐步發展為面向異構 AI 計算的通用編譯基礎設施:

      • 已支持12 家廠商、近 20 款AI芯片覆蓋芯片包括華為昇騰、寒武紀、沐曦、摩爾線程、海光

      • 支持架構從DSA、GPGPU,擴展到RISC-VAI芯片、ARM等多種體系

      在技術設計上,FlagTree 主要解決兩類問題:

      • 硬件差異隔離:通過統一的硬件中間表示(計算單元、內存層次、原子操作等),將芯片差異最大程度收斂在編譯器內部,而不是暴露給算子生成邏輯。

      • 性能與易用性的平衡:在保留 Triton 高級語法的同時,引入硬件感知優化,避免「一套代碼跑所有芯片」帶來的性能和穩定性問題。

      FlagTree v0.4中,FlagOS 社區進一步引入TLE(Triton Language Extensions),以分層方式擴展 Triton 的跨芯片表達能力:

      • TLE-Lite:一次編寫,多后端運行,適用于快速驗證與輕量級優化

      • TLE-Struct:面向算子開發者的架構感知調優接口

      • TLE-Raw:允許直接內聯 CUDA、MLIR 等廠商原生代碼,用于極致性能場景

      通過 FlagTree 的編譯支撐,KernelGen 自動生成的算子才能在不同芯片上保持較高的編譯通過率和執行穩定性。

      FlagTree 項目地址:https://github.com/flagos-ai/flagtree

      性能指標與驗證情況:多芯片、多模型、多輪評測

      不同芯片上的生成與執行正確率(用戶真實場景)


      數據表明:

      • 華為芯片在生成成功率上表現最優

      • 英偉達芯片在執行正確率(數值準確性)上表現最佳

      • 國產多樣化架構下仍存在進一步優化空間

      整體結果驗證了 KernelGen降低人工開發成本、提升跨芯片適配效率方面的核心價值。

      110 個 Torch 算子的多芯片正確性與性能評測

      為驗證算子自動生成在真實工程場景下的可用性,評測選取了110 個代表性 TorchAPI算子,每個算子進行5 輪迭代式自動生成,并在多芯片環境下完成完整對比測試。

      評測覆蓋為、海光、天數、摩爾、Nvidia等平臺,并在每個平臺上分別對比:

      • 芯片原生 Triton 編譯器

      • FlagOS / FlagTree Triton 編譯器

      評測重點關注兩項核心指標:

      • 執行正確率:是否成功編譯運行,并在多種輸入 shape 下與 Torch reference 數值一致

      執行正確率與性能匯總(110 個算子)


      主要結論

      • FlagTree 在多芯片平臺上整體執行正確率更高、穩定性更強

        在海光、天數、摩爾及 Nvidia 等平臺上,FlagTree 的通過率普遍高于原生 Triton,其中 Nvidia 平臺達到70%,為各組合中最高。

      • 更高的「能跑通」比例,為后續性能優化保留了更大空間

        對規?;阕由啥?,執行正確率是第一門檻,FlagTree 在這一維度上更具工程優勢。

      在執行正確率方面,KernelGen 對不同數據類型設定了工業界要求的嚴格且可量化的精度約束:整型與布爾類型要求完全一致(零誤差),而浮點與復數類型則依據其數值表示能力設定明確的誤差上限——例如 FP16/FP8 級別控制在 1e-3,BF16 控制在 1e-2 量級,FP32 與 Complex64 達到 1e-6 級別。通過這種按數據類型精細分級的精度標準,KernelGen 在追求極致性能的同時,確保算子替換與跨后端生成具備可驗證、可復現的數值正確性。

      注:評測基于110 個算子 × 多平臺 × 雙編譯器的完整結果,算子級明細已隨 KernelGen / FlagOS 項目提供。

      不同大模型在算子生成任務中的差異(以華為 Ascend 為例)

      在算子自動生成場景中,大模型并非只承擔「代碼補全」的角色,其對算子語義理解、shape 泛化以及邊界條件處理能力,都會直接影響生成算子的可執行性與穩定性。

      在統一使用FlagTree Triton 編譯器、并以華為 Ascend平臺為目標硬件的條件下,評測對比了多種主流大模型在110 個 TorchAPI算子生成任務中的表現,重點統計其執行正確率(數值準確性通過)。


      從評測結果可以看到,不同大模型在算子生成任務中的能力差異較為明顯,整體呈現出清晰的分層:

      • GPT-5 表現最優,在 110 個算子中有 65 個能夠成功生成 Triton 實現并通過多種輸入 shape 的一致性校驗,顯示出其在算子語義理解、控制流生成和邊界條件處理方面的綜合優勢。

      • GLM-4.7 位于第二梯隊,在部分復雜算子和 shape 泛化場景中仍存在不穩定情況,但已具備較強的自動算子生成能力。

      • Qwen3-Max 與 MiniMax-M2.1在算子生成這一高約束場景下成功率相對較低,主要受限于對算子細粒度語義和底層 Triton 編程模式的理解能力。

      這一結果表明,在算子自動生成這一高度結構化、強約束的任務中,模型本身的推理與結構化生成能力,仍然是影響最終工程效果的關鍵因素之一。

      專家知識注入與算子性能進化(英偉達)

      在引入模型自反思與外部專家知識后,KernelGen 的算子性能持續提升:

      • 算子執行正確率最高可達 75.5%

      • 74.2% 算子加速比 >0.8

      • 68.5% 算子加速比 >1.0

      • 加速比中位數1.04x,平均1.07x


      Baseline 為基于智能體自反思的迭代方法;IterOpt為面向優化目標的反思迭代方法;v1_KNWL在優化迭代中引入模型軌跡總結知識;v2_KNWL與v3_KNWL分別在不同輪次進一步融合外部專家種子知識

      這表明,算子自動生成已從「能跑」邁向「能用、可優化」。

      總結

      Claude Code 的 30 分鐘遷移案例,讓行業看到了AI正在改變「寫代碼」的方式。

      而 KernelGen 與 FlagOS 所展示的,是另一層更工程化的進展:

      在硬件高度碎片化的時代,通過算子自動生成、統一編譯器與跨芯片生態協同,讓算子開發不再成為AI系統落地的核心瓶頸。

      這不是一次演示的勝負,而是一條正在被驗證、并持續演進的系統軟件路線。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      霍去病打下4座城,取了4個霸氣名字,從未改名并沿用至今

      霍去病打下4座城,取了4個霸氣名字,從未改名并沿用至今

      長風文史
      2026-01-13 15:21:07
      消息稱小米17T系列手機研發進度提速,搭載天璣8500/9500芯片

      消息稱小米17T系列手機研發進度提速,搭載天璣8500/9500芯片

      IT之家
      2026-02-20 18:41:04
      人事通知我被降職了,月薪也從5萬5降到了4000,我直接當場辭職

      人事通知我被降職了,月薪也從5萬5降到了4000,我直接當場辭職

      煙火人間故事匯
      2025-11-12 22:00:07
      04年,北京阿姨給小伙20元救急錢,18年后小伙千里報恩:還您19元

      04年,北京阿姨給小伙20元救急錢,18年后小伙千里報恩:還您19元

      嘆為觀止易
      2026-02-21 16:32:57
      臉腫顯老、顏值崩塌,高清懟臉拍攝下的明星,去掉濾鏡秒變素人

      臉腫顯老、顏值崩塌,高清懟臉拍攝下的明星,去掉濾鏡秒變素人

      林雁飛
      2026-02-19 17:53:29
      林葳專訪:如果下賽季我還在美國,我希望自己能更加全面

      林葳專訪:如果下賽季我還在美國,我希望自己能更加全面

      懂球帝
      2026-02-21 14:45:19
      中方再拋61億美債離場,特朗普破防:想贏中國只有1條路可選

      中方再拋61億美債離場,特朗普破防:想贏中國只有1條路可選

      谷盟1
      2026-02-21 12:33:15
      1967年,趙爾陸離世后,李敏向父親詢問看法,毛澤東動怒直言:他是革命的好同志

      1967年,趙爾陸離世后,李敏向父親詢問看法,毛澤東動怒直言:他是革命的好同志

      史海孤雁
      2026-02-13 10:13:06
      汪峰陪森林北母女過年,牽手逛街幫拎包還買6折衣服,繼女不開心

      汪峰陪森林北母女過年,牽手逛街幫拎包還買6折衣服,繼女不開心

      瘋說時尚
      2026-02-21 04:49:17
      誰能懂??!閨蜜家廚房這5個先進設計,真讓我大開眼界,個個實用

      誰能懂啊!閨蜜家廚房這5個先進設計,真讓我大開眼界,個個實用

      Home范
      2026-02-21 14:55:03
      梅西新年首秀!沖擊開門紅:2大巨星好友退役 對決孫興慜

      梅西新年首秀!沖擊開門紅:2大巨星好友退役 對決孫興慜

      葉青足球世界
      2026-02-21 19:47:46
      26.4萬!豐田官宣:新車正式亮相

      26.4萬!豐田官宣:新車正式亮相

      高科技愛好者
      2026-02-20 22:58:44
      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      環球網資訊
      2026-02-21 10:22:16
      柬埔寨向26國通報

      柬埔寨向26國通報

      澎湃新聞
      2026-02-21 02:12:47
      為何年紀大了會越羨慕體制內的人?這是我見過最簡明易懂的答案

      為何年紀大了會越羨慕體制內的人?這是我見過最簡明易懂的答案

      夜深愛雜談
      2026-02-21 21:39:42
      中國10大名菜,多數人沒吃過!

      中國10大名菜,多數人沒吃過!

      風煙食錄
      2026-02-16 06:20:42
      草原地區不產茶葉,那為啥古代的游牧民族,對茶葉情有獨鐘呢?

      草原地區不產茶葉,那為啥古代的游牧民族,對茶葉情有獨鐘呢?

      向航說
      2026-02-20 09:20:03
      哈登換隊成歷史首人!助阿倫場均23+11變鯊魚 騎士奪冠概率升第4

      哈登換隊成歷史首人!助阿倫場均23+11變鯊魚 騎士奪冠概率升第4

      顏小白的籃球夢
      2026-02-21 17:18:42
      重點留意!節后三大翻倍方向,重倉股民拿穩別慌!

      重點留意!節后三大翻倍方向,重倉股民拿穩別慌!

      慧眼看世界哈哈
      2026-02-21 14:35:32
      美國白宮確認終止關稅!10%新關稅豁免清單公布,附稅號

      美國白宮確認終止關稅!10%新關稅豁免清單公布,附稅號

      妙知
      2026-02-21 10:40:58
      2026-02-21 22:20:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14566文章數 66632關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      消防車救火后返程墜崖6名消防員犧牲 村民:都是小伙子

      頭條要聞

      消防車救火后返程墜崖6名消防員犧牲 村民:都是小伙子

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      時尚
      游戲
      親子
      軍事航空

      教育要聞

      孰對孰錯?媽媽要求孩子上交2萬壓歲錢,孩子不干!

      一年中最不能錯過的推送,超適合過年看!

      巫師3新DLC不搞新地圖 波蘭內部人士:就在威倫附近

      親子要聞

      直接萌化了!小寶寶看著爸爸吃面條的樣子心想:等你老了的

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版