![]()
一位從事算法開發的朋友,向我們講述了他親身經歷的故事:
他所在的團隊,被領導安排了一個任務——將已有的圖像識別模型從CUDA遷移到昇騰平臺上。
最開始,他以為會是個“大工程”,時常在論壇里看到缺少算子、工具鏈不夠完善的討論,想要在昇騰平臺上開發AI應用,等于是在啃一塊硬骨頭,連基礎的算子都要自己寫。
結果竟然比想象中順利許多。
大部分主流算子已能在CANN的算子庫中找到,只有少數需要通過算子開發套件自定義實現。官方提供的工具鏈談不上成熟,整體來看已經比較完善。最終只做少量修改,就跑通了模型。
一位開發者的際遇,其實是整個生態的縮影。
很長一段時間里,國內計算生態的“貧瘠”可謂深入人心,“缺算子、缺文檔、缺工具”等問題被頻頻詬病。
現在,情況正在悄然改變。昇騰CANN的算子庫、工具鏈的不斷豐富,讓開發者的遷移體驗越來越順暢,論壇里的因為“跑不通”產生的“吐槽帖”,漸漸變成了“怎么跑得更快”的“經驗貼”。
中國的計算產業,終于走出了至暗時刻。
01 計算的終局是生態
回顧計算產業的發展史,從不缺少“性能耀眼”的產品,有的被寫進了“技術史”,卻沒能在產業中占據一席之地。
典型的例子就是Intel的Itanium。
時間回到上世紀90年代末,在x86上一家獨大的Intel清楚地意識到:x86架構的指令集復雜度高,遺留兼容性拖累了架構演進。
于是Intel選擇和HP聯手押注EPIC架構,把并行性、指令調度等由“硬件猜”的事交給編譯器靜態完成,CPU本身可以更簡單、更高效地執行,相當于“把硬件未來幾十年的負擔一次性解決”。
遺憾的是,Intel和HP都低估了構建軟件生態的成本。
當時Linux和Windows均已綁定了x86,企業沒有動力投入到新架構,開發者想要在Itanium上運行應用,必須重寫或移植,導致積極性嚴重不足。被寄予厚望的Itanium,無奈淪為了“昂貴的試驗品”。
和Intel形成鮮明對比的,是英偉達CUDA的崛起。
![]()
2006年的GPU市場,還是英偉達和ATI分庭抗禮的局面,就在AMD斥巨資并購ATI時,英偉達默默做了別人不愿做的事:提供類似C語言的編程接口,允許開發者直接把GPU當并行處理器使用,即使在市場不看好的情況下,仍然十幾年如一日地投資開發者生態,完善工具鏈、文檔和社區。
當深度學習浪潮到來時,CUDA已然成為事實上的標準,成了任何想做AI的團隊都難以跳過的選項。
這些成功或失敗的案例背后,藏著計算產業的現實:一些產品之所以輸掉了未來,不是因為性能不夠強,而是沒能跨過生態這道坎,沒能打動千萬計的開發者。技術決定起點,而生態決定了終局。
02 一道殘酷的生死題
既然生態這么難,連Intel這樣的巨頭,當年也沒能另起爐灶,為什么還要“冒險”孵化自己的計算生態呢?
答案很殘酷,這不是選擇題,而是生死題。
以AI應用為例,國內外有不少計算企業想要在生態上走捷徑,即兼容CUDA。簡單來說就是在CUDA的API和芯片的底層驅動間加一個“翻譯器”,幫助開發者快速跑通已有的CUDA應用,最大程度降低開發者的門檻。
諸如此類的做法無可厚非。
早期靠“兼容”解決“能用”的問題,接下來圍繞卷積、矩陣乘法、KV Cache等重點算子做深度優化,一步步實現“好用”,長期則試圖培育基于自身軟硬件的原生生態,逐漸擺脫對CUDA的綁定。
只是CUDA并非開源,而且更新非常頻繁,第三方產品很難通過指令翻譯的方式實現完美兼容。在大多數通用AI訓練和推理場景下,兼容路徑難以匹敵英偉達的性能和能效。
況且英偉達一旦感受到了競爭壓力,還可以通過“扎緊生態藩籬”的形式,倒逼開發者“用腳投票”。就像2024年初的一幕,英偉達宣布禁止在其他GPU上通過轉譯層運行CUDA軟件,給不少廠商敲響了警鐘。
![]()
計算生態的“有”與“無”,決定著一整個產業鏈的生死存亡。
如果是“無”,始終存在被卡脖子的風險,意味著關鍵軟件無法運行、關鍵應用無法落地,被鎖死在別人搭好的舞臺上。
哪怕只是“有”,即使暫時不夠好用、工具鏈不夠完善,也意味著可以逐步打磨、可以不斷迭代,避免徹底出局的風險。
業界不少芯片廠商選擇兼容CUDA生態時,華為副董事長、輪值董事長徐直軍卻坦言:“如果我們投如此多的錢兼容CUDA生態,而且還是CUDA過去的版本,哪天CUDA生態兼容不了了怎么辦?”
所以在計算生態的抉擇上,華為做了一個很多人不理解的決定——做屬于自己的CANN生態。
03 CANN開源開放的“陽謀”
2025年8月初的昇騰計算產業發展峰會上,華為宣布“CANN全面開源開放,Mind系列應用使能套件及工具鏈全面開源,支持用戶自主的深度挖潛和自定義開發,加速廣大開發者的創新步伐,讓昇騰更好用、更易用。”
在英偉達的封閉生態遭遇“信任危機”時,華為站在了歷史正確的一邊——加速開源開放。
CANN的全面開源開放,意味著開發者可以深入到圖優化、算子融合、內存調度等底層機制,不僅可以調用,還能看到底層實現邏輯,甚至在必要時改造、優化,進行二次創新。
Mind系列工具鏈的開源,讓模型移植、調試、Profiling的全過程“白盒化”,開發者不再局限于現成的工具和框架,可以根據自身需求進行深度定制和優化,實現更高的性能和效率。
CANN還進一步兼容了vLLM、SGLang、PyTorch、Tensorflow等主流框架,開發者將應用遷移到昇騰平臺時,無需對原有代碼進行大規模修改,只需做少量適配乃至“零改動”。
故事并未就此結束。
9月18日的華為HC 2025上,華為的硬件和超節點架構占據了多家媒體的頭條,其實還有另一個影響可能更深遠的動作——華為宣布將開放靈衢2.0技術規范,全面開放超節點技術,包括開放超節點參考架構、開放超節點基礎硬件、開源操作系統靈衢組件等等。
![]()
無論是昇騰384超節點,還是支持8192張卡的Atlas 950超節點,都是基于靈衢互聯協議開創的。底層技術協議和整套超節點技術的開放,意味著產業界可以基于技術規范自研相關產品或部件,自主設計基于靈衢的各種產品,實現真正意義上的AI算力自由。
個中邏輯并不難解釋。
只有走開源路線,降低產業參與門檻,才有更多的企業從中受益,才會讓更多的開發者敢于All in。華為通過硬件開放、軟件開源主動拆掉了最核心的“護城河“,用“技術讓利”換取“生態復利”,吸引全球的開發者參與進來,促進產業鏈上下游協同,形成良性的正反饋循環。
一組不應該被忽略的數據是:CANN全面開源開放48小時內,昇騰開發者社區新增注冊用戶就超過了10萬,Gitee平臺上的CANN代碼庫收獲了5.7萬星標,向外界宣示了中國計算生態的號召力和凝聚力。
04 前路漫漫亦燦燦
客觀評價CANN代表的國產計算生態,必須承認仍處于“追趕”階段,在成熟度、應用廣度、生態完善度上和CUDA仍有差距。畢竟CUDA已經打磨了近20年,CANN在2018年才推出。
有差距不代表沒機會,大模型技術正在重構千行萬業,也在加劇底層計算生態的重新洗牌。
比如華為一直積極與高校合作,通過編寫教材、開設實驗課、聯合研發等方式,將昇騰、鯤鵬生態納入到了人才培養體系,同時幫助高校和科研機構在國產平臺上進行前沿研究。
典型例子就是北京大學的楊智老師,基于Ascend C自主開發了AI編程語言TileLang,提供Tile-level的類Python編程方式,大幅降低了AI編程門檻。目前昇騰CANN與TileLang已對接,并完成了FlashAttention算子的開發實現,性能持平官方版本,核心代碼從500+行減少到了80行。
某種程度上,昇騰已經初步形成了“教育—應用—生態”的閉環:學生們在求學階段就能接觸到國產計算生態,在實驗室里嘗試開發應用,畢業后應用到廣闊的產業場景中,為生態的繁榮持續注入 “新鮮血液”。
![]()
再比如在大模型領域,MoE架構逐漸成為提升參數規模和推理效率的主流路徑,卻也遇到了跨卡通信的高帶寬壓力、專家路由的動態調度等新挑戰。除了超節點的架構創新,CANN也進行了針對性優化。
在算子開發方面,CANN將在下個版本中同時支持SIMD+SIMT的編程方式,滿足不同場景的開發需求:其中SIMD新增支持的Cube和Vector融合編程,無需寫數據搬運指令,實現融合算子開發效率提升30%。
在通信效率方面,昇騰將開源共享內存能力Share Memory,在超節點范圍內的所有片上內存可實現資源池化共享,并通過Load and Store方式通信,較傳統通信時間大幅降低。
截止到目前,越來越多的第三方企業和開發者與華為站在一起,加入到了開源共建的陣營中。
比如無問芯穹基于CATLASS模板庫開發的Group GEMM算子,相比aclNN算子,性能再提升50%;科大訊飛、華南理工等企業和高校,在不斷豐富算子開發的專家知識庫,幾分鐘內便可輸出最優Tiling策略......
一邊在人才培養上“補短板”,一邊在工程創新上“立長板”,只要沿著正確的道路走下去,一個繁榮的計算生態只是時間問題。
05 寫在最后
計算生態的范疇不只是AI算力,CPU、操作系統等都需要從0到1構建自主生態,每一個都深刻影響著整個產業格局。
樂觀的是,CANN的崛起已經論證了自主生態的可行性,跑出了開源開放的生態新范式:有人在計算架構上不斷試探極限,有人在工具鏈和框架中默默補齊短板,有人在高校課堂和開源社區里播下種子……這不是一家企業的獨角戲,而是中國計算產業的集體答卷。
生態不是三年五載就能完成的工程,需要千千萬萬的開發者參與進來,考驗的不是速度,而是中國計算產業的集體耐力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.