據報道,11月21日,華為即將發布一項AI領域的突破性技術,將GPU、NPU等算力資源的利用率從行業平均的30%-40%一舉提升至70%。在AI大模型軍備競賽日益燒錢的當下,這一數字若能實現,可能標志著AI基礎設施的構建思路的改變。
華為魔法曝光,英偉達AMD被聯手?
長期以來,AI算力集群面臨資源利用率低下痛點。不同框架、不同任務、不同硬件(如GPU與NPU)之間難以高效協同,導致大量寶貴的算力在等待、調度中被閑置。
據分析,華為此次的殺手锏是軟件創新。它旨在通過軟件平臺,實現對英偉達GPU、華為自家昇騰NPU及其他第三方算力的統一資源管理與利用。
![]()
其本質,是構建一個“算力抽象層”。在AI模型看來,底層的硬件差異被徹底“屏蔽”,只有一個統一的、高效的資源池可供調用。這使得AI訓練和推理的資源支撐變得前所未有的高效。
英偉達格局小了,華為通吃全場,誰的卡都能用
在提升資源效率的賽道上,英偉達是先行者。其收購的Run:ai平臺,通過動態資源調度與智能化管理,已在優化GPU利用率方面取得了顯著成效。NVIDIA Run:ai的核心優勢在于對NVIDIA自家生態內的資源進行精細化編排,無論在公有云還是本地數據中心,都表現出色。
![]()
然而,華為的技術似乎展現了更大的“野心”,其關鍵詞是“泛用性”。
如果說Run:ai是在“英偉達生態”內做到了極致優化,那么華為則試圖建立一個“跨生態”的“聯合國”。報道中明確提及GPU和NPU,這強烈暗示該技術不僅服務于華為昇騰,更致力于將不同廠商的算力“兼容并包”。
混合訓練\推理,萬卡集群不再難,AI平權時代要來了
這種“泛用性”的真正價值,可能在于實現了高效的混合訓練/推理。
在當前的行業實踐中,為了保證集群穩定性和效率,絕大多數訓練/推理集群都由同一種型號的計算卡構成。但這并非最優解。
以大模型推理為例,其過程可大致分為Prefill和Decode兩個階段:
Prefill階段計算量大,對算力要求高。理論上,使用大算力、配GDDR或LPDDR的計算卡即可實現高性價比。
Decode階段計算量小,但頻繁讀寫緩存,對顯存帶寬極為敏感。理論上,使用高帶寬、算力不必頂尖的“帶寬卡”效率最高。
![]()
華為此前已在昇騰CANN 8.0基于LLM P-D分離部署方案發布LLM-DataDist組件,如果華為的新技術能將這兩種不同品牌的卡(例如,A卡負責Prefill,B卡負責Decode)高效地協同起來,進行混合調度,就能將不同硬件的優勢發揮到極致。
它打破了構建大規模算力集群必須依賴單一品牌、單一型號芯片的昂貴門檻。
未來,一個AI數據中心或許可以同時部署華為昇騰、英偉達、AMD,乃至國內的寒武紀、摩爾線程等不同品牌的GPU/NPU,并通過華為的這套軟件系統將其協同作戰。
這不僅極大地盤活了存量硬件資產,更從根本上降低了組網成本和對特定供應商的依賴。對整個AI行業而言,這無疑是一次意義重大的技術賦能與行業利好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.