如果華為9月18號(hào)官宣的都能實(shí)現(xiàn),英偉達(dá)清庫存、中國定制、反壟斷調(diào)查都不再重要,可以踏實(shí)放棄中國市場了。
TT可以坦然“讓給你”,因?yàn)榘雽?dǎo)體我們“勝利在望”。
9月18日的華為全連接大會(huì)上,昇騰公布未來三年產(chǎn)品路線圖,明確2026至2028年將推出包括950PR、950DT、960、970在內(nèi)的多款高性能芯片。
架構(gòu)、算力、內(nèi)存、集群互聯(lián)跨越式發(fā)展,在經(jīng)歷盤古昇騰事件后,華為少見地高調(diào)公布AI戰(zhàn)略進(jìn)展。
結(jié)合T1級(jí)的寒武紀(jì)、昆侖芯、平頭哥、摩爾線程今年爆單,沐曦、壁仞、天數(shù)等公司有望上市,國產(chǎn)AI算力一超多強(qiáng)”局面逐漸明朗。
芯片全面進(jìn)化:算力狂飆,自研HBM,架構(gòu)大換血!
1)新架構(gòu)讓CUDA不再是護(hù)城河
昇騰950將實(shí)現(xiàn)1PFlops FP8算力或2 PFlops FP4算力,若按英偉達(dá)稀疏算力標(biāo)稱法,昇騰950算力還將再次翻倍,高達(dá)4 PFlops。相較于此前昇騰910C單Die最高0.8PB Int8的算力,其算力密度只能說是穩(wěn)步提升。
此外,將于2027年Q1上市的昇騰960將實(shí)現(xiàn)2PFlops FP8算力,行業(yè)推測昇騰960可能采用雙Die合封設(shè)計(jì),類似當(dāng)下的昇騰910C或英偉達(dá)B200/300。而昇騰970將再次翻倍,達(dá)到4 PFlops。
![]()
更重要的是架構(gòu)升級(jí),昇騰NPU從SIMD升級(jí)至SIMT/SIMD架構(gòu)。與此前芯事情報(bào)局報(bào)道的《盤古昇騰事件后續(xù)來了,華為轉(zhuǎn)向GPU硬剛英偉達(dá)?》基本一致。
![]()
SIMT/SIMD架構(gòu)的好處在于:
一是算子開發(fā)變得更加高效,相較于以往為昇騰910系列自行開發(fā)算子的方式,大幅優(yōu)化,甚至可以以很簡單的方式匹配CUDA算子。
二是支持的加速格式也更為豐富,從原先最低支持Int8,擴(kuò)展至FP8、FP4等多種精度,其中FP4有望成為未來推理任務(wù)的主流配置。以O(shè)penAI開源大模型GPT OSS來看,該模型使用4bit量化和FP4推理。
此外,新一代芯片在訪存效率和互聯(lián)帶寬方面也實(shí)現(xiàn)進(jìn)一步提升。
互聯(lián)帶寬從昇騰910C的784 GB/s提升至2TB/s,是原來的接近3倍;實(shí)現(xiàn)更精細(xì)的內(nèi)存訪問粒度(支持512B、128B);提高向量處理單元的計(jì)算資源分配。
2)國產(chǎn)HBM橫空出世,內(nèi)存墻徹底推倒
該方案大概率采用定制Base Die與DRAM TSV封裝相結(jié)合的方式,也不排除華為完全自研Base Die及封裝技術(shù)的可能性。HBM本質(zhì)上是由多層DRAM堆疊于Logic芯片之上構(gòu)成,如僅追求高速內(nèi)存性能,也可放寬條件,不嚴(yán)格依賴HBM。類似替代方案還包括可用于移動(dòng)端的CUBE封裝等更靈活的結(jié)構(gòu)。
HBM方面,昇騰950PR采用128GB 1.6TB/s的HBM,950DT則采用144GB 4TB/s的HBM二代。在昇騰960和970上,內(nèi)存速度還將提升到9.6TB/s和14.4 TB/s。
![]()
3)一芯兩用!昇騰950為大模型量身定制
PR版本采用950 Die搭配HiBL1.0(內(nèi)部代號(hào)“白鷺”),而DT版本則為950 Die與HiZQ(內(nèi)部代號(hào)“朱雀”)的組合。
![]()
兩者在內(nèi)存帶寬方面存在差異,DT具備更大帶寬,PR則相對(duì)較小。
這一區(qū)別推測與大模型推理的不同階段需求相關(guān):Prefill階段側(cè)重于算力,影響“出首字”速度,而Decode階段更依賴內(nèi)存帶寬,影響“蹦字”效率。芯片架構(gòu)的這一變化,是否預(yù)示著“PD分離”的設(shè)計(jì)趨勢,值得進(jìn)一步觀察。
4)鯤鵬CPU同步進(jìn)化,192核“靈犀”打通算力瓶頸
2026年Q4量產(chǎn)鯤鵬950,核心架構(gòu)從“泰山”升級(jí)為“靈犀”,核數(shù)大幅提至192核/384線程;2028年Q1推出鯤鵬960,更分高性能版(單核性能+50%+)和高密度版(256核/512線程),全面覆蓋AI Host、數(shù)據(jù)庫、云原生等場景。
![]()
集群全球最強(qiáng)!SuperPoD性能碾壓英偉達(dá)現(xiàn)役及在研系統(tǒng)!
1)重新定義“Super”,8192卡單節(jié)點(diǎn)只是起步,算力單位直接用“E”
搭載昇騰950芯片的新一代大規(guī)模集群SuperPoD正式對(duì)外公布,預(yù)計(jì)將顯著提升高性能計(jì)算能力。
![]()
![]()
SuperPoD將于2026年第一季度開始交付,該可以以8192張卡為節(jié)點(diǎn),形成超大規(guī)模算力池。這一算力水平遠(yuǎn)超當(dāng)前英偉達(dá)主流方案,甚至超越其規(guī)劃中的NVL72/NVL576系統(tǒng),被業(yè)內(nèi)稱為“全球最強(qiáng)AI單節(jié)點(diǎn)”。
Atlas 950 SuperPoD(基于Ascend 950):
?集成 8,192顆NPU
?FP8算力高達(dá) 8 EFLOPS(每秒800億億次)
?內(nèi)存容量 1,152 TB
?內(nèi)存帶寬 16.3 PB/s
?訓(xùn)練吞吐量 4.91 million TPS
?推理吞吐量 19.6 million TPS
Atlas 960 SuperPoD(基于Ascend 950DT / 960):
?規(guī)模擴(kuò)展至 15,488卡(NPU)
?FP8算力達(dá) 30 EFLOPS,F(xiàn)P4下更可達(dá) 60 EFLOPS
?互聯(lián)帶寬高達(dá) 34 PB/s,采用跨柜全光互聯(lián)架構(gòu)
![]()
據(jù)估算,在FP16精度下,一個(gè)8192卡集群可提供4EFlops算力,而15488卡集群更可達(dá)到7.5EFlops,展現(xiàn)出卓越的線性擴(kuò)展能力。
該集群采用全光互聯(lián)技術(shù),運(yùn)行華為自研的GaussDB數(shù)據(jù)庫,并搭載泰山950服務(wù)器作為交換核心,體現(xiàn)出高度集成化的“華為全家桶”式解決方案。
值得關(guān)注的是,此前已在CM384集群中得到驗(yàn)證的UB Mesh互聯(lián)技術(shù),也將直接應(yīng)用于SuperPoD中,為其高吞吐、低延遲通信提供底層支持。
2)百萬卡互聯(lián)已成現(xiàn)實(shí),AI算力進(jìn)入“核聚變”時(shí)代
50萬卡集群預(yù)計(jì)可提供267 EFLOPS(FP16)算力,相當(dāng)于64個(gè)8192卡集群的集合;而百萬卡集群更將實(shí)現(xiàn)524 EFLOPS(FP16)算力,由128個(gè)基本SuperPoD單元構(gòu)成。
意味著SuperPoD架構(gòu)中一個(gè)8192卡集群模塊,并支持以2的倍數(shù)靈活向上疊加,為超大規(guī)模AI訓(xùn)練與推理任務(wù)奠定堅(jiān)實(shí)基礎(chǔ)。
![]()
![]()
全面開源!華為開放UB-Mesh、AI工具鏈,共建生態(tài)絕殺英偉達(dá)!
華為正式開源其UB-Mesh互聯(lián)技術(shù),靈衢協(xié)議將面向企業(yè)、合作伙伴及高校開放,共同推動(dòng)下一代超節(jié)點(diǎn)計(jì)算基礎(chǔ)設(shè)施的建設(shè)與發(fā)展。
![]()
當(dāng)前,單卡與單機(jī)柜的性能逐漸面臨物理上限,卡間與機(jī)柜間互聯(lián)技術(shù)已成為提升算力規(guī)模的關(guān)鍵。為突破單卡算力限制,華為推出了昇騰910C,英偉達(dá)也發(fā)布了B200/B300,均采用合封方式提升單卡性能。在機(jī)柜層面,英偉達(dá)NVL72通過高密度集成顯卡進(jìn)一步提升單節(jié)點(diǎn)性能。而在千卡、萬卡乃至十萬卡的大規(guī)模集群中,互聯(lián)方案多依賴InfiniBand或以太網(wǎng)架構(gòu),各廠商需依托自身技術(shù)實(shí)現(xiàn)高效組網(wǎng)。
此前有分析比喻稱,英偉達(dá)的互聯(lián)技術(shù)能夠?qū)?shù)千張顯卡虛擬化為一個(gè)“超級(jí)計(jì)算卡”,實(shí)現(xiàn)整體算力的無縫整合。UB-Mesh則代表了華為基于光互聯(lián)技術(shù)提出的全新路徑,旨在替代InfiniBand方案。
光互聯(lián)相較于傳統(tǒng)銅互聯(lián),在抗干擾性和傳輸帶寬方面具備明顯優(yōu)勢。更重要的是,我國光通信產(chǎn)業(yè)鏈自主程度遠(yuǎn)高于銅纜相關(guān)產(chǎn)業(yè)。國內(nèi)銅礦品位普遍較低,采購價(jià)格易受大宗商品市場影響,而光纖材料則無此類擔(dān)憂。盡管在光電芯片領(lǐng)域仍部分依賴海外企業(yè)——值得一提的是,華為在武漢已建設(shè)光芯片制造工廠——但在光模塊、光纖等環(huán)節(jié),國內(nèi)產(chǎn)業(yè)已非常成熟,光纖光模塊產(chǎn)能全球占比超過50%。
此前5G技術(shù)雖屢受爭議,但我國在5G建設(shè)過程中培育出了全球綜合實(shí)力最強(qiáng)的光通信能力。隨著UB-Mesh正式開源,各類傳統(tǒng)通信企業(yè)均可依托自身能力推進(jìn)實(shí)施,參與到新一代計(jì)算基礎(chǔ)設(shè)施的建設(shè)中,共享技術(shù)發(fā)展帶來的市場機(jī)遇。
此外,華為還開源了全套AI開發(fā)工具。CANN編譯器與虛擬指令集接口開放,其余軟件全開源,2025年底前完成910B/C版本開源,未來實(shí)現(xiàn)“產(chǎn)品上市即開源”。Mind系列工具鏈全面開源,涵蓋訓(xùn)練、推理、部署全流程。openPangu基礎(chǔ)大模型全面開源,支持企業(yè)二次開發(fā)與定制。
華為此次路線圖不止是芯片迭代,更是一套從芯到集群、從硬件到開源生態(tài)的全面進(jìn)攻策略。在算力競爭步入深水區(qū)的當(dāng)下,華為正以全自研技術(shù)棧+深度開源,構(gòu)建挑戰(zhàn)英偉達(dá)的底層資本。2026,好戲才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.