<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

      0
      分享至



      編輯|澤南

      近日,剛剛 IPO 的國產 GPU 公司沐曦股份,完成了自上市后的首個重大技術發布。

      該公司旗下的 MXMACA 軟件棧(MACA)正式發布了全新版本 3.3.0.X,沐曦發布了一份 23 頁的技術報告,機器之心圍繞該報告對 MACA 進行解讀。



      在全自主硬件體系的支撐下,沐曦已經構建起「全棧軟件」體系,其對于提升計算引擎的效率起到了關鍵作用。同時,新一代 MACA 宣告了沐曦軟件生態的一次重要跨越,它的核心理念,是如何讓國產 GPU 真正「用起來」。

      GPU 生態適配的「萬能接口」

      MACA(MetaX Accelerated Computing Architecture)被定義為「異構計算軟件棧核心計算平臺、引擎、運維工具和規范化操作范本」,內置了全套自研工具鏈,涵蓋編譯器、性能分析工具、格式轉換組件等,可實現多語言支持、算子自動優化與跨框架平滑適配。

      它面向沐曦的曦云 C 系列、曦思 N 系列 GPU 研發,其定位是連接沐曦自研 GPU 硬件與上層應用生態的關鍵紐帶。



      MACA 承擔著連接硬件算力單元與上層應用生態的紐帶作用。據介紹,它覆蓋了 AI 芯片工作流程的底層驅動、用戶態接口、編譯器、算子適配、訓練框架、推理框架、行業場景優化等全鏈路能力。

      在芯片行業,硬件決定算力基礎,而軟件棧則決定了算力能否被有效釋放。長期以來,國產 GPU 落地面臨的最大挑戰并非純粹的性能,而是生態兼容問題 ——AI 開發者早已習慣在英偉達的 CUDA 生態中開發新技術、構建應用,遷移到新的硬件上意味著高昂的遷移成本。

      MACA 3.3.0.X 直擊這一痛點,它是一套「生態強化版」軟件棧,聚焦場景的深度適配,涵蓋底層基礎能力的迭代與主流 AI 框架、大模型訓練推理、搜索、廣告、推薦、科學計算等多維度生態適配,其核心邏輯是構建一個「萬能接口」,讓現有生態能夠近乎無縫地遷移到沐曦平臺上

      具體有多萬能?技術報告顯示,沐曦團隊對 GitHub 上大量 CUDA 項目進行了適配測試。他們篩選了 4490 個「含 CUDA 關鍵字」的活躍代碼倉庫進行驗證,按應用領域包括 AI 模型 / 應用、高性能并行計算、氣象模擬、計算化學等場景。

      測試結果顯示,4173 個項目可以直接適配運行,成功率高達 92.94%。僅有 260 個項目需要微小調整,占比不足 6%,且修改主要涉及編譯配置優化,而非核心業務邏輯。



      這意味著,幾乎任何現有的 CUDA 項目都可以近乎「開箱即用」地遷移到沐曦平臺上,目前在市面上,還沒有第二家能夠做到

      在 MACA 的這一通適配之后,GitHub 上海量的 AI、數據處理、科學計算應用工具,可以快速適配在國產異構計算平臺上。對于開發者而言,這就意味著面對國產 AI 硬件體系時,學習成本和遷移工作量可以大幅降低。

      框架兼容

      擁抱主流 AI 開發生態

      除了能夠無縫遷移已有的項目工作,新版本 MACA 也強調了對于 AI 框架兼容的特性,它能夠幫助開發者構建和探索新技術。

      在 AI 開發領域,框架兼容能力決定了平臺的可用性。MACA 3.3.0.X 版本完成了對 PyTorch 2.8 的深度適配,覆蓋了全部 2650 個核心算子(其中 GPU 算子 2410 個)。涵蓋從基本算術運算、線性代數操作、卷積 / 池化類算子、規約操作、隨機采樣、索引與切片快速傅里葉變換(FFT)、Attention 等所有關鍵算子類別。它支持多種數據形態,保障了算子能力的完整性與場景適配性。

      除了 PyTorch,MACA 還兼容 TensorFlow、PaddlePaddle、JAX 等主流開源框架,以及 Megatron-LM、DeepSpeed 等大模型訓練框架,在推理端支持 vLLM、SGLang、Transformers、KTransformer 等推理框架。

      在操作系統方面,MACA 兼容了 Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流 Linux 發行版。它同時完整支持混合精度訓練、分布式訓練、torch.compile 編譯優化與圖模式任務下發的深度集成等關鍵特性。

      簡單來說,這一兼容性列表幾乎涵蓋了當前 AI 開發的所有主流工具鏈。技術報告中還特別強調,這種適配是「無需調整工程構建邏輯,即可實現現有模型的無縫使用」。

      搭配性能分析與優化工具鏈,MACA 配合沐曦 GPU 在核心場景上的性能可以對標主流 GPU 水平

      MACA 不僅僅是一個兼容層,而是一個完整的軟件棧。它包含了開發效率引擎層和垂直場景賦能層兩大核心部分。

      在開發效率引擎層,MACA 提供了一系列高性能算子庫,如針對矩陣計算的 mcBLAS、針對深度神經網絡的 mcDNN、針對注意力機制的 mcFlashAttention 等。



      MACA 套件中開發效率引擎,其旨在降低異構開發門檻。

      這些工具針對沐曦 GPU 的多卡拓撲進行了專門優化,編譯器工具支持 MACA C/C++、Fortran 等語言,能將高級語言轉化為高效的可執行程序。

      在垂直場景賦能層,MACA 針對 AI 與科學計算兩大方向,通過針對性的優化策略與框架適配解決需求。

      其中在 AI 領域,MACA 的訓練優化兼容 PyTorch、BMTrain 等框架,通過硬件流水線并行實現通信與計算重疊,優化分布式并行策略。推理優化則適配 ONNX Runtime、vLLM、SGLang 等框架,采用 INT8 量化、KVCache 跨卡管理提升長序列處理效率。

      在科學計算領域,MACA 通過重構 MPI、BLAS 庫提升內存帶寬,定向移植 OpenFOAM、GROMACS 等科學計算框架,結合容器化部署方案,能夠確保算力能高效支撐流體仿真、分子動力學等垂直場景。



      此外,MACA 的性能分析工具提供了系統級追蹤和核函數指標采集功能,能夠幫助開發者定位計算瓶頸。全棧工具鏈的完整性,使得開發者能夠在沐曦平臺上完成從開發到部署的全流程工作。

      此種能力的背后,是沐曦構建的大模型訓推一體化能力。

      算力到生產力的轉化

      MACA-3.3.0.X 版本為開發者們構建起了一套全流程的一體化算力支撐底座,通過軟硬件協同、核心算子優化以及分布式架構的升級,旨在實現訓推效能的跨越式突破。

      這一底座的基礎是沐曦自研的 GPGPU,其高算力密度與高內存帶寬確保了單卡能夠高效處理千億參數模型。通過自研的 MetaXLink 高速互連技術,沐曦在硬件層面構建了低時延、高帶寬的分布式通信網絡,使得算力供給擴展至萬卡級集群,為 AI 大模型的超大規模分布式訓練與推理奠定了基礎。

      在軟件層面,MACA 構建起端到端的協同體系。其首要特點是極致的生態兼容性,除此之外,MACA 通過拓撲感知的 MCCL 高性能通信庫和自研的編譯器優化模塊,能夠智能地優化多機多卡的數據通信策略,實現算子自動融合、循環展開等編譯級優化,深度挖掘出硬件底層潛力。



      MACA 套件大模型推理優化技術。

      一體化設計的重要優勢,在于打破訓練與推理之間的場景壁壘。MACA 支持模型訓練后的輕量化轉換與直接部署,無需二次適配。通過統一的模型格式與接口規范,它實現了「訓練 - 微調 - 推理 - 部署」全流程鏈路貫通,大幅縮短了大模型從技術研發到業務落地的周期與成本。

      在技術層面上,MACA-3.3.0.X 版本針對幾個關鍵瓶頸進行了深度調優。

      在關鍵算子上,MACA 針對 FlashAttention 優化,大幅減少了向 HBM 顯存的數據搬運開銷;通過對于分布式集合通信庫的優化,MACA 將千卡集群的訓練、推理線性度穩定在 95% 以上,專家并行效率提升了 15%;通過異步通信機制,還有通信 - 計算重疊優化,MACA 將數據傳輸任務與 GPU 計算任務解耦并行,縮短了端到端延遲,提升 GPU 利用率 15%-30%,解決了因等待數據通信而導致的芯片閑置問題。

      在軟件棧上層,沐曦進一步做了面向易用性和部署的優化:其深度支持 PyTorch 2.0 的 torch.compile 動態圖編譯,以最大化硬件利用率;針對推理場景打造輕量化引擎,優化批處理策略以同時降低延遲、提升吞吐;全面兼容容器化與云原生架構,支持企業級的大規模彈性部署與便捷運維。

      MACA 全面兼容當前主流的大模型生態體系,無需代碼修改即可開展訓練、推理;針對大規模大模型訓練場景,其工具鏈可以縮短訓練周期,在分布式訓練中展現出優異線性度,可以長周期無故障穩定運行;在推理時,MACA 針對主流大模型的深度優化降低了延遲,提升了吞吐量;與此同時,MACA 還具備從小規模調試到大規模訓推的全場景平滑擴展能力。

      實測數據表明,沐曦通過 MACA-3.3.0.X 構建的一體化算力底座在曦云 C 系列 GPU 上的訓推效能已經展現了與國際旗艦 GPU 產品 A 正面競爭的實力。



      DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同參數規模(如 7B、13B)及任務類型(SFT、Pretrain)下的訓練 TGS 數據,包含「旗艦 A TGS」(黃色柱)、「C550 TGS」(紫色柱)及兩者效率比值(綠色折線)。

      MACA 不僅是一個技術平臺,更是沐曦「1+6+X」戰略的重要組成部分。在這一戰略中,「1」代表數字算力底座,「6」代表對于六大核心行業的賦能,包括金融、醫療健康、能源、教科研、交通和大文娛等行業的 AI 場景應用及開源生態建設,「X」代表具身智能、低空經濟等新興行業。

      技術報告詳細介紹了 MACA 對于多個垂直場景的優化:

      • 在搜廣推場景,MACA 針對 TensorFlow/JAX 與 XLA 技術棧進行了深度協同適配。在部分模型中,沐曦平臺的性能已達到甚至超過國際旗艦產品。
      • 在傳統小模型支持方面,MACA 提供了多模型格式兼容和底層計算優化,覆蓋計算機視覺、自然語言處理及傳統機器學習等核心場景。
      • 在 AI for Science 領域,MACA 適配了 PaddleScience、WRF 數值模式等科學計算工具。
      • 除此以外在材料、技術科學、天氣模擬、藥物研發等領域,MACA 對領域主流 AI 框架都進行了適配。

      這種場景化優化能力,使得沐曦 GPU 不再僅僅是提供原始的算力,而是能夠針對特定行業需求提供優化方案,實現從算力到生產力的高效轉化。

      構建生態的長遠布局

      作為銜接自主 GPGPU 硬件與全棧軟件體系的核心載體,MACA 3.3.0.X 的推出不僅是產品版本的常規迭代,更是國產芯片廠商在經歷硬件破冰后,試圖通過軟件定義算力、通過標準重塑生態的長遠布局。

      值得肯定的是,沐曦提供的從 AI 芯片到軟件核心平臺的能力,是全棧自研的—— 與部分廠商選擇兼容 CUDA 或基于現有開源 ISA 進行微調的方式不同,沐曦選擇了最具挑戰但也保證了長期安全性的路線:自主指令集。MACA 軟件棧具有自己的編程模型和使用范式,但也深度兼容 CUDA 生態,無需大幅修改即可適配海量 CUDA 項目。另外,沐曦的 GPU 基于全自研 GPGPU 核心 IP 及架構,原生支持全精度計算、MetaXLink 高速互連等特性。

      憑借自研的體系,沐曦保證了算力體系的安全合規、性能針對性以及演進自主權。與此同時,MACA 并沒有將全自研等同于「生態完全推倒重來」,而是通過 MACA 軟件棧構建了高度兼容的體系。

      這種策略,保證了「算力自主」的戰略目標。通過一并兼容已有生態海量的算法模型、軟件資產與開發者技能,讓更多開發者們無需重復造輪子,就可以在自主算力的底座上跑通業務。這種「高門檻自研、低成本遷移」的模式,最大化地保證了用戶的商業效率與效益。

      隨著技術的不斷進步,沐曦正在以最低的遷移成本,將 AI 開發者引入自己的生態軌道。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      泰國的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

      泰國的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

      離離言幾許
      2025-12-23 16:03:54
      一代觀眾的白月光!堀北真希:隱退多年,熱度依舊居高不下!

      一代觀眾的白月光!堀北真希:隱退多年,熱度依舊居高不下!

      灼灼小齊
      2025-12-30 00:40:03
      人與人思維方式的不同,注定有的人永不翻身

      人與人思維方式的不同,注定有的人永不翻身

      洞見
      2025-12-28 21:56:27
      曝蘋果iPhone 17國內銷量逼近1500萬 上市僅三個月!

      曝蘋果iPhone 17國內銷量逼近1500萬 上市僅三個月!

      手機中國
      2025-12-27 10:59:07
      董璇自爆全年都穿一次性內褲,一條100多塊,網友集體破防

      董璇自爆全年都穿一次性內褲,一條100多塊,網友集體破防

      星創文化
      2025-12-01 22:54:08
      【解局】不越位、不缺位、不爭功,中方調停為何能贏得柬泰雙方認可?

      【解局】不越位、不缺位、不爭功,中方調停為何能贏得柬泰雙方認可?

      環球網資訊
      2025-12-29 21:50:08
      蘇超球員收入超過職業球員是否合理?我們需要怎樣的職業足球?

      蘇超球員收入超過職業球員是否合理?我們需要怎樣的職業足球?

      足球大小腦
      2025-12-29 22:35:03
      永州奪冠巡游,網友吐槽花車太有梗,官方回應了,主教練或將辭職

      永州奪冠巡游,網友吐槽花車太有梗,官方回應了,主教練或將辭職

      觀察鑒娛
      2025-12-29 09:29:06
      烏克蘭功績:把俄羅斯從帝國打成國家,把自己從國家打成部落

      烏克蘭功績:把俄羅斯從帝國打成國家,把自己從國家打成部落

      扶蘇聊歷史
      2025-11-29 16:54:04
      一種讓你變老又頭禿的飲料,很多人天天在喝!

      一種讓你變老又頭禿的飲料,很多人天天在喝!

      貓大夫醫學科普
      2025-12-19 06:47:52
      特朗普稱美軍在委內瑞拉行動中摧毀一大型設施

      特朗普稱美軍在委內瑞拉行動中摧毀一大型設施

      財聯社
      2025-12-30 00:32:05
      這次,姜昆的"澄清"徹底淪為笑話,一份天氣預報,把他們全出賣了

      這次,姜昆的"澄清"徹底淪為笑話,一份天氣預報,把他們全出賣了

      千言娛樂記
      2025-12-27 19:56:34
      林俊杰官宣文案惹爭議!女方名字都不提,被吐槽不尊重母親和女友

      林俊杰官宣文案惹爭議!女方名字都不提,被吐槽不尊重母親和女友

      萌神木木
      2025-12-30 00:22:24
      13年前,那個為200萬踢假球而鋃鐺入獄的前國腳祁宏,現過得如何

      13年前,那個為200萬踢假球而鋃鐺入獄的前國腳祁宏,現過得如何

      劉森森
      2025-12-23 11:43:09
      炎亞綸發文感謝飛輪海,自曝與150人交往過,網友:看F4合體眼紅

      炎亞綸發文感謝飛輪海,自曝與150人交往過,網友:看F4合體眼紅

      小咪侃娛圈
      2025-12-29 09:53:43
      越扒越有!不止徐鶯,徐湖平被曝大小情人無數,日本翻譯都不放過

      越扒越有!不止徐鶯,徐湖平被曝大小情人無數,日本翻譯都不放過

      戶外阿嶄
      2025-12-27 02:15:30
      人生建議:不要跟任何人,說太多話

      人生建議:不要跟任何人,說太多話

      木言觀
      2025-12-26 07:35:08
      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      瓜汁橘長Dr
      2025-12-29 11:14:21
      十年過去了,零跑咋成新勢力龍頭了?

      十年過去了,零跑咋成新勢力龍頭了?

      差評XPIN
      2025-12-29 00:04:36
      島內熱議解放軍“突襲式”演習,臺當局還在嘴硬

      島內熱議解放軍“突襲式”演習,臺當局還在嘴硬

      觀察者網
      2025-12-29 17:22:16
      2025-12-30 01:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12016文章數 142523關注度
      往期回顧 全部

      科技要聞

      肉搏非洲,傳音不想只當個賣手機的

      頭條要聞

      媒體:解放軍圍臺軍演 臺軍演練"集體逃亡"畫面滑稽

      頭條要聞

      媒體:解放軍圍臺軍演 臺軍演練"集體逃亡"畫面滑稽

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時代來了

      態度原創

      家居
      本地
      時尚
      教育
      房產

      家居要聞

      東方雅韻 溫馨恬適

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      這一抹瑞紅,在2025年終

      教育要聞

      特級教師管建剛:“課文朗讀”再認識

      房產要聞

      中旅?三亞藍灣展示中心璀璨綻放,共鑒灣心孤品傳奇

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色五月人妻| 亚洲自国产拍揄拍| 少妇被爽到高潮喷水久久欧美精品| 国产亚洲欧美精品永久| 国产日产免费高清欧美一区| 富婆熟妇熟女二区三区| a天堂视频在线| 国产无遮挡又黄又爽高潮| 720lu国产刺激无码| 人妻丰满熟妇av无码区| 国产九九在线视频| 日韩欧美中文字幕公布| 深夜福利在线观看视频| 久久国产乱子伦免费精品无码| 色人妻中文字幕| 健康| 成人午夜精品无码区久久| 国产69精品久久久久久久 | 五月天激情国产综合婷婷婷| 亚洲中字幕日产av片在线| 偶偶福利影院| 岑巩县| 欧美丰满熟妇xxxx性| 91视频观看| 谁有老熟女网站| 国产成人AV| 欧美日韩国产亚洲沙发| 在线看免费无码的av天堂| 国产V视频| 国产成人精品亚洲精品色欲| 亚洲欧美日韩久久一区二区| 国产一区二区不卡在线| 国产免费制服丝袜调教视频| 亚洲天堂人妻| 中文字幕在线播放| 激情综合网五月婷婷| 香蕉av在线| 国产精品午夜福利视频234区| 国产在线精品一区二区不卡麻豆| 国产盗摄人妻精品一区| 曲靖市|