網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華為嗷嗷領(lǐng)先，AI算力“一超多強(qiáng)”明朗，英偉達(dá)好日子到頭？

2025-09-19 09:52:26　來源: 芯事情報(bào)局

北京舉報(bào)

分享至

如果華為9月18號(hào)官宣的都能實(shí)現(xiàn)，英偉達(dá)清庫存、中國定制、反壟斷調(diào)查都不再重要，可以踏實(shí)放棄中國市場了。

TT可以坦然“讓給你”，因?yàn)榘雽?dǎo)體我們“勝利在望”。

9月18日的華為全連接大會(huì)上，昇騰公布未來三年產(chǎn)品路線圖，明確2026至2028年將推出包括950PR、950DT、960、970在內(nèi)的多款高性能芯片。

架構(gòu)、算力、內(nèi)存、集群互聯(lián)跨越式發(fā)展，在經(jīng)歷盤古昇騰事件后，華為少見地高調(diào)公布AI戰(zhàn)略進(jìn)展。

結(jié)合T1級(jí)的寒武紀(jì)、昆侖芯、平頭哥、摩爾線程今年爆單，沐曦、壁仞、天數(shù)等公司有望上市，國產(chǎn)AI算力一超多強(qiáng)”局面逐漸明朗。

芯片全面進(jìn)化：算力狂飆，自研HBM，架構(gòu)大換血！

1）新架構(gòu)讓CUDA不再是護(hù)城河

昇騰950將實(shí)現(xiàn)1PFlops FP8算力或2 PFlops FP4算力，若按英偉達(dá)稀疏算力標(biāo)稱法，昇騰950算力還將再次翻倍，高達(dá)4 PFlops。相較于此前昇騰910C單Die最高0.8PB Int8的算力，其算力密度只能說是穩(wěn)步提升。

此外，將于2027年Q1上市的昇騰960將實(shí)現(xiàn)2PFlops FP8算力，行業(yè)推測昇騰960可能采用雙Die合封設(shè)計(jì)，類似當(dāng)下的昇騰910C或英偉達(dá)B200/300。而昇騰970將再次翻倍，達(dá)到4 PFlops。

更重要的是架構(gòu)升級(jí)，昇騰NPU從SIMD升級(jí)至SIMT/SIMD架構(gòu)。與此前芯事情報(bào)局報(bào)道的《盤古昇騰事件后續(xù)來了，華為轉(zhuǎn)向GPU硬剛英偉達(dá)？》基本一致。

SIMT/SIMD架構(gòu)的好處在于：

一是算子開發(fā)變得更加高效，相較于以往為昇騰910系列自行開發(fā)算子的方式，大幅優(yōu)化，甚至可以以很簡單的方式匹配CUDA算子。

二是支持的加速格式也更為豐富，從原先最低支持Int8，擴(kuò)展至FP8、FP4等多種精度，其中FP4有望成為未來推理任務(wù)的主流配置。以O(shè)penAI開源大模型GPT OSS來看，該模型使用4bit量化和FP4推理。

此外，新一代芯片在訪存效率和互聯(lián)帶寬方面也實(shí)現(xiàn)進(jìn)一步提升。

互聯(lián)帶寬從昇騰910C的784 GB/s提升至2TB/s，是原來的接近3倍；實(shí)現(xiàn)更精細(xì)的內(nèi)存訪問粒度（支持512B、128B）；提高向量處理單元的計(jì)算資源分配。

2）國產(chǎn)HBM橫空出世，內(nèi)存墻徹底推倒

該方案大概率采用定制Base Die與DRAM TSV封裝相結(jié)合的方式，也不排除華為完全自研Base Die及封裝技術(shù)的可能性。HBM本質(zhì)上是由多層DRAM堆疊于Logic芯片之上構(gòu)成，如僅追求高速內(nèi)存性能，也可放寬條件，不嚴(yán)格依賴HBM。類似替代方案還包括可用于移動(dòng)端的CUBE封裝等更靈活的結(jié)構(gòu)。

HBM方面，昇騰950PR采用128GB 1.6TB/s的HBM，950DT則采用144GB 4TB/s的HBM二代。在昇騰960和970上，內(nèi)存速度還將提升到9.6TB/s和14.4 TB/s。

3）一芯兩用！昇騰950為大模型量身定制

PR版本采用950 Die搭配HiBL1.0（內(nèi)部代號(hào)“白鷺”），而DT版本則為950 Die與HiZQ（內(nèi)部代號(hào)“朱雀”）的組合。

兩者在內(nèi)存帶寬方面存在差異，DT具備更大帶寬，PR則相對(duì)較小。

這一區(qū)別推測與大模型推理的不同階段需求相關(guān)：Prefill階段側(cè)重于算力，影響“出首字”速度，而Decode階段更依賴內(nèi)存帶寬，影響“蹦字”效率。芯片架構(gòu)的這一變化，是否預(yù)示著“PD分離”的設(shè)計(jì)趨勢，值得進(jìn)一步觀察。

4）鯤鵬CPU同步進(jìn)化，192核“靈犀”打通算力瓶頸

2026年Q4量產(chǎn)鯤鵬950，核心架構(gòu)從“泰山”升級(jí)為“靈犀”，核數(shù)大幅提至192核/384線程；2028年Q1推出鯤鵬960，更分高性能版（單核性能+50%+）和高密度版（256核/512線程），全面覆蓋AI Host、數(shù)據(jù)庫、云原生等場景。

集群全球最強(qiáng)！SuperPoD性能碾壓英偉達(dá)現(xiàn)役及在研系統(tǒng)！

1）重新定義“Super”，8192卡單節(jié)點(diǎn)只是起步，算力單位直接用“E”

搭載昇騰950芯片的新一代大規(guī)模集群SuperPoD正式對(duì)外公布，預(yù)計(jì)將顯著提升高性能計(jì)算能力。

SuperPoD將于2026年第一季度開始交付，該可以以8192張卡為節(jié)點(diǎn)，形成超大規(guī)模算力池。這一算力水平遠(yuǎn)超當(dāng)前英偉達(dá)主流方案，甚至超越其規(guī)劃中的NVL72/NVL576系統(tǒng)，被業(yè)內(nèi)稱為“全球最強(qiáng)AI單節(jié)點(diǎn)”。

Atlas 950 SuperPoD（基于Ascend 950）：

?集成 8,192顆NPU

?FP8算力高達(dá) 8 EFLOPS（每秒800億億次）

?內(nèi)存容量 1,152 TB

?內(nèi)存帶寬 16.3 PB/s

?訓(xùn)練吞吐量 4.91 million TPS

?推理吞吐量 19.6 million TPS

Atlas 960 SuperPoD（基于Ascend 950DT / 960）：

?規(guī)模擴(kuò)展至 15,488卡（NPU）

?FP8算力達(dá) 30 EFLOPS，F(xiàn)P4下更可達(dá) 60 EFLOPS

?互聯(lián)帶寬高達(dá) 34 PB/s，采用跨柜全光互聯(lián)架構(gòu)

據(jù)估算，在FP16精度下，一個(gè)8192卡集群可提供4EFlops算力，而15488卡集群更可達(dá)到7.5EFlops，展現(xiàn)出卓越的線性擴(kuò)展能力。

該集群采用全光互聯(lián)技術(shù)，運(yùn)行華為自研的GaussDB數(shù)據(jù)庫，并搭載泰山950服務(wù)器作為交換核心，體現(xiàn)出高度集成化的“華為全家桶”式解決方案。

值得關(guān)注的是，此前已在CM384集群中得到驗(yàn)證的UB Mesh互聯(lián)技術(shù)，也將直接應(yīng)用于SuperPoD中，為其高吞吐、低延遲通信提供底層支持。

2）百萬卡互聯(lián)已成現(xiàn)實(shí)，AI算力進(jìn)入“核聚變”時(shí)代

50萬卡集群預(yù)計(jì)可提供267 EFLOPS（FP16）算力，相當(dāng)于64個(gè)8192卡集群的集合；而百萬卡集群更將實(shí)現(xiàn)524 EFLOPS（FP16）算力，由128個(gè)基本SuperPoD單元構(gòu)成。

意味著SuperPoD架構(gòu)中一個(gè)8192卡集群模塊，并支持以2的倍數(shù)靈活向上疊加，為超大規(guī)模AI訓(xùn)練與推理任務(wù)奠定堅(jiān)實(shí)基礎(chǔ)。

全面開源！華為開放UB-Mesh、AI工具鏈，共建生態(tài)絕殺英偉達(dá)！

華為正式開源其UB-Mesh互聯(lián)技術(shù)，靈衢協(xié)議將面向企業(yè)、合作伙伴及高校開放，共同推動(dòng)下一代超節(jié)點(diǎn)計(jì)算基礎(chǔ)設(shè)施的建設(shè)與發(fā)展。

當(dāng)前，單卡與單機(jī)柜的性能逐漸面臨物理上限，卡間與機(jī)柜間互聯(lián)技術(shù)已成為提升算力規(guī)模的關(guān)鍵。為突破單卡算力限制，華為推出了昇騰910C，英偉達(dá)也發(fā)布了B200/B300，均采用合封方式提升單卡性能。在機(jī)柜層面，英偉達(dá)NVL72通過高密度集成顯卡進(jìn)一步提升單節(jié)點(diǎn)性能。而在千卡、萬卡乃至十萬卡的大規(guī)模集群中，互聯(lián)方案多依賴InfiniBand或以太網(wǎng)架構(gòu)，各廠商需依托自身技術(shù)實(shí)現(xiàn)高效組網(wǎng)。

此前有分析比喻稱，英偉達(dá)的互聯(lián)技術(shù)能夠?qū)?shù)千張顯卡虛擬化為一個(gè)“超級(jí)計(jì)算卡”，實(shí)現(xiàn)整體算力的無縫整合。UB-Mesh則代表了華為基于光互聯(lián)技術(shù)提出的全新路徑，旨在替代InfiniBand方案。

光互聯(lián)相較于傳統(tǒng)銅互聯(lián)，在抗干擾性和傳輸帶寬方面具備明顯優(yōu)勢。更重要的是，我國光通信產(chǎn)業(yè)鏈自主程度遠(yuǎn)高于銅纜相關(guān)產(chǎn)業(yè)。國內(nèi)銅礦品位普遍較低，采購價(jià)格易受大宗商品市場影響，而光纖材料則無此類擔(dān)憂。盡管在光電芯片領(lǐng)域仍部分依賴海外企業(yè)——值得一提的是，華為在武漢已建設(shè)光芯片制造工廠——但在光模塊、光纖等環(huán)節(jié)，國內(nèi)產(chǎn)業(yè)已非常成熟，光纖光模塊產(chǎn)能全球占比超過50%。

此前5G技術(shù)雖屢受爭議，但我國在5G建設(shè)過程中培育出了全球綜合實(shí)力最強(qiáng)的光通信能力。隨著UB-Mesh正式開源，各類傳統(tǒng)通信企業(yè)均可依托自身能力推進(jìn)實(shí)施，參與到新一代計(jì)算基礎(chǔ)設(shè)施的建設(shè)中，共享技術(shù)發(fā)展帶來的市場機(jī)遇。

此外，華為還開源了全套AI開發(fā)工具。CANN編譯器與虛擬指令集接口開放，其余軟件全開源，2025年底前完成910B/C版本開源，未來實(shí)現(xiàn)“產(chǎn)品上市即開源”。Mind系列工具鏈全面開源，涵蓋訓(xùn)練、推理、部署全流程。openPangu基礎(chǔ)大模型全面開源，支持企業(yè)二次開發(fā)與定制。

華為此次路線圖不止是芯片迭代，更是一套從芯到集群、從硬件到開源生態(tài)的全面進(jìn)攻策略。在算力競爭步入深水區(qū)的當(dāng)下，華為正以全自研技術(shù)棧+深度開源，構(gòu)建挑戰(zhàn)英偉達(dá)的底層資本。2026，好戲才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.