![]()
編輯|Panda、澤南
大模型的競爭如火如荼,也有一群人正在研究如何降低門檻,讓 AI 工具變得親民。
最近,在 AI 基礎算力上重磅頻出的華為,又亮出了一張王牌:昇騰的底層基礎軟件,CANN 全面開源開放
昇騰宣布將通過一系列新舉措,持續支持開發者在 AI 模型、算子、內核、底層資源等多個層級進行自主優化與自定義開發。通過開放共建,一個新興的 AI 算力生態正在快速崛起,改變計算架構領域本已固化的格局。
CANN 全稱為「神經網絡異構計算架構」(Compute Architecture for Neural Networks),其作為連接上層 AI 訓練框架(如 PyTorch、TensorFlow、MindSpore 等)和底層 AI 芯片的橋梁,讓開發者不用關心芯片細節就能調用底層算力。
最近一段時間,業內對于國產 AI 算力的需求大幅增長,讓人們更加重視起硬件的計算架構。CANN 的開源開放引發了業界的廣泛關注,當 CANN 這個在整個 AI 技術棧中「承上啟下」的關鍵角色被開源了之后,開發者們獲得了定義算力的權力。
以前在 AI 芯片上的算子開發門檻高到不敢用,現在昇騰 CANN 把這層窗戶紙捅破了。
這一次,我們不談宏大的生態格局,只談對于坐在屏幕前的開發者來說,CANN 的開源開放到底帶來了什么?
拒絕「黑盒」
三種路徑實現「AI 算子開發自由」
在 AI 開發的深水區,算子開發效率與性能的平衡始終是個難題。但「AI 算子開發自由」首先建立在廣泛的生態兼容之上。
CANN 目前已經支持與 PyTorch、TensorFlow、MindSpore、PaddlePaddle 等主流 AI 框架無縫對接,并開放了 GE 圖開發接口,允許開發者自定義圖結構,滿足了多樣化的開發需求。
![]()
大模型方面,CANN 覆蓋了國內外目前的主流,支持包括 Llama、Mistral、Phi 等海外模型,以及 Qwen、DeepSeek、GLM 等國產大模型家族,共計超過 50 種。昇騰已經參與了超過 10 個大模型開源社區的上下游生態構建。
在此基礎上,針對更深層的算子開發挑戰,開源開放后的 CANN 為不同技術背景的開發者提供了三條路徑。
![]()
路徑一:習慣 Python?Triton 生態無縫接入
對于習慣了 GPU 編程范式的開發者,最大的顧慮往往是遷移成本。CANN 對此給出的答案是:不用改變習慣
CANN 實現了與業界主流開發范式 Triton 的深度對接。通過 Linalg IR 與 AscendNPU IR(中間表示)的轉換,開發者可以直接使用熟悉的 Python 語法編寫高性能算子,原有的 Triton 代碼能夠以極低的成本遷移到昇騰 NPU 上。
此外,CANN 還引入了TileLang這一新興編程選擇。它提供了比 Triton 更細粒度的性能控制能力,允許開發者顯式管理數據分塊和內存層級映射。通過 TileLang-Ascend 的深度適配,開發者可以利用類 Python 語法,精準操控 NPU 的 Cube 核與 Vector 核,有效解決現代 AI 芯片面臨的「內存墻」挑戰。
路徑二:追求極致?Ascend C 讓性能「狂飆」
對于追求 SOTA 性能的系統級程序員,Ascend C是昇騰原生提供的終極武器。
這是一種采用 C/C++ 語法風格的編程語言,它開放了算子底層資源管理接口。這意味著開發者不再受限于封裝好的 API,而是可以直接調用 NPU 的原子級能力,精確控制每一個時鐘周期的行為和片上緩存管理。無論是 FlashAttention 還是復雜的 MoE 融合算子,Ascend C 都能讓開發者榨干硬件的每一滴性能。
路徑三:想要省力?搭積木式的模板庫
并非所有場景都需要從零手寫算子。針對深度學習中無處不在的矩陣運算(GEMM),CANN 推出了CATLASS 算子模板庫
![]()
這是一個基于 Ascend C 構建的高性能算子模版庫,它將復雜的矩陣乘法及其融合算子抽象為可配置的模板。開發者無需重新編寫復雜的切分(Tiling)和流水線(Pipeline)邏輯,只需簡單的參數配置,即可快速生成適配不同形狀和精度的矩陣乘算子。
在當前主流的 MoE(混合專家)模型支持上,CANN 還推出了創新的 MLAPO 融合算子。這種設計將原本需要多個算子完成的 MoE 計算,融合為單個高效算子。測試數據顯示,MLAPO 融合算子能夠顯著降低計算開銷,相比傳統實現方式,在相同硬件上獲得明顯的性能提升。
![]()
在大參數 DeepSeekV3 模型的量化場景下,MLAPO 算子的實現能將計算耗時從 109us 縮減為 45us,帶來整網性能提升 20%。
這不是畫餅,而是已經有開源代碼、有倉庫的實質性進展。
為了方便開發者快速上手,CANN 已在 AtomGit 上開放了包括 CATLASS(算子模板庫)、ops-math(基礎數學)、ops-nn(神經網絡)、ops-transformer(transformer 類大模型)、ops-cv(圖像處理、目標檢測)、HCCL(通信庫)在內的多個核心倉庫,并發布了集成主流大模型環境的官方容器鏡像,開發者可以通過容器指令直接獲取開箱即用的開發環境。(https://gitcode.com/cann)
目前,CANN 已預置了超過 1400 個基礎算子、100 多個融合算子以及 15 個通信算法,為大模型開發提供了「開箱即用」的能力。這些算子經過深度優化和實際生產過程的驗證,能夠充分發揮昇騰硬件的性能潛力,是吸引開發者和企業客戶從「試一試」轉向「深度用」的硬通貨。
這種對底層細節的「可控性」,使 CANN 能夠成為追求 SOTA 性能的系統程序員的有力武器。
架構變革:分層解耦
為什么現在的 CANN 能做到如此靈活?核心在于架構上的分層解耦
![]()
CANN 的多層架構示意圖,其中不同的層級有不同的開源策略。
何為分層解耦?其實并不難理解。在過去的 AI 軟件棧中,工具鏈、運行時、驅動、編程體系、加速庫等往往被打造成一個整體。這種模式雖也有優勢,但對于追求極致性能的頭部模型廠商和底層系統工程師來說,卻顯得笨重。
而 CANN 卻做到了在宏觀架構上的功能解耦與組件獨立演進。
具體來說,CANN 不再是一個巨大的單體軟件,而是被拆解為多個功能正交的組件。分層解耦的思路貫穿了全棧:從底層的硬件驅動到中間的運行時,再到上層的編譯器和加速庫,每一層都實現了物理上的松耦合。
這意味著開發者無需像過去那樣「牽一發而動全身」,而是可以根據業務需求,按需引入或升級特定的組件功能,大幅降低了系統集成和定制開發的門檻。
這種解耦可為 CANN 各個層級帶來重要的變化:
加速庫的「組件化」
CANN 改變了過去「全量算子一個包」的發布方式。算子庫被精細拆分為 ops-math、ops-nn、ops-cv 和 ops-transformer 等獨立組件。

通信庫和圖引擎(GE)也作為獨立組件逐步開放。其中 HCCL 開放了通信算子和框架層,支持開發者自定義通信算法以適應大規模集群;GE 則開放了圖編譯和執行接口,支持自定義圖融合策略。
運行時的「極簡化」
Runtime 層剝離了冗余模塊,實現了核心功能的最小化。更為關鍵的是,Runtime 開放了 aclGraph 接口,支持圖模式下沉。
這一機制允許開發者將由多個算子組成的計算圖一次性下沉到 Device 側,極大地減少了 Host 與 Device 之間的交互開銷。
在架構分層解耦之后,CANN 實現了組件功能的最小化,共有 20 余個安裝包,支持各功能的獨立演進和編譯升級。
這樣一來,開發者可以在模型、算子、內核、底層資源等多個層級分別進行優化與開發。可以說開源后的 CANN,在追求極致性能的同時,兼顧了開發的易用性。
全面開源開放
正在陸續進行中
對于開源世界來說,真正的技術價值會在自由流動中無限放大。CANN 的開源正是遵循同一邏輯:它不僅僅是為了「替代」,更是發出了一份共同構建「算力多元世界」的邀請函。開發者的每一次使用,問題的反饋和代碼的提交,都會為這個新的生態做出貢獻。
當 CANN 開源社區的代碼倉庫逐漸被開發者 fork 和 star,大學實驗室的研究者們開始用 Ascend C 完成 AI 項目,當硅基流動、無問芯穹等創業公司基于 CANN 優化自己的模型訓練流程,一個不同于 CUDA 路徑的 AI 算力生態正在快速成長。
基于昇騰 CANN,無論你是想驗證一個想法,還是遷移一個模型,現在都可以快速開始。
目前,CANN 的全面開源開放正在加速推進,其在 AtomGit 的代碼庫也非常活躍,幾乎每天都有新的動態。
![]()
截至目前,CANN 項目下已有 27 個子項目,總 star 數已經超過 3700,總下載量更是已經突破 35 萬。
更值得期待的是,開源的版圖還在持續擴大。比如用于負責 AI 計算圖的解析、優化和執行的 GE (Graph Engine,也是 CANN 的核心組件之一)以及一種旨在簡化高性能算子的開發流程的新型編程范式 PyPTO(Python Parallel Tensor Operation)框架。
![]()
想體驗最新的 CANN 開源開放能力?
- 主頁地址:https://www.hiascend.com/cann
- 開源項目:https://gitcode.com/cann
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.