![]()
散英魂寄千萬雄鷹翱翔神州,
盡智魄載十億慧芯呼喚華夏。
01
前沿導(dǎo)讀
上海人工智能研究院數(shù)字化治理中心主任彭嘉昊在接受國內(nèi)媒體采訪時表示,我們目前的芯片擅長推理,也就是應(yīng)用層面。
但是在大模型的訓(xùn)練上面,我們與美國英偉達(dá)產(chǎn)品的差距很大,尤其是在單卡性能上面,我們的昇騰910B差不多能達(dá)到英偉達(dá)A100的算力,相當(dāng)于美國5年前的水平。
![]()
我們的策略就是正視在技術(shù)層面的差距,通過計算集群和超節(jié)點的技術(shù)策略來彌補(bǔ)單卡性能上面的差異。
如果僅僅只是在應(yīng)用層面,那我們目前已經(jīng)可以解決很多急需解決的問題,例如涉及到民生領(lǐng)域的應(yīng)用問題,我們可以實現(xiàn)國產(chǎn)替代,但是在最前沿的模型訓(xùn)練領(lǐng)域,我們還在追趕的過程中。
![]()
02
超節(jié)點
根據(jù)中科院物理研究所發(fā)布的資料顯示,ai產(chǎn)業(yè)當(dāng)中有一個技術(shù)概念叫做超節(jié)點,超節(jié)點就相當(dāng)于把Scale Up(向上擴(kuò)展)和Scale Out(向外擴(kuò)展)結(jié)合在一起,提升整體的性能和大模型訓(xùn)練推理的效率。
Scale Up指的是硬件為主,在算力不夠的情況下,通過添加更多的GPU和內(nèi)存提升單個設(shè)備的性能。
Scale Out指的是協(xié)同工作,在單個設(shè)備性能不足的情況下,將多個同樣性能的設(shè)備聯(lián)合在一起,通過協(xié)同工作來提升性能。
![]()
超節(jié)點將兩者的概念融合,將多個設(shè)備通過技術(shù)手段進(jìn)行深度協(xié)同使其在邏輯層面表現(xiàn)為一臺統(tǒng)一的設(shè)備,從而提升整體的算力性能。
參考資料: 小棗君,公眾號:中科院物理所
這個技術(shù)最早是由英偉達(dá)公司提出的概念,2024年英偉達(dá)發(fā)布了NVL72,NVL72將36個Grace CPU和72個Blackwell GPU集成到一個液冷機(jī)柜中,實現(xiàn)總計720 PFLOPs的稀疏FP8計算性能,或1440 PFLOPs的推理性能。并且英偉達(dá)的超節(jié)點技術(shù)為私有協(xié)議,其他廠商無法直接使用。
![]()
2025年,華為推出了CloudMatrix 384超節(jié)點技術(shù),該技術(shù)與英偉達(dá)一樣均為私有協(xié)議,用384張昇騰算力卡和192顆鯤鵬芯片組成超節(jié)點,在目前已商用的超節(jié)點中單體規(guī)模最大,可提供高達(dá)300 PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。
![]()
在國產(chǎn)單卡芯片較為落后的情況下,通過超節(jié)點技術(shù)可以有效填補(bǔ)當(dāng)下產(chǎn)業(yè)發(fā)展的真空期,推動國內(nèi)ai產(chǎn)業(yè)在應(yīng)用推理層面繼續(xù)向前發(fā)展,持續(xù)優(yōu)化技術(shù)。
并且中國成熟完善的資源建設(shè)體系,足以支撐起國內(nèi)多個大規(guī)模數(shù)據(jù)中心的運(yùn)行。華為的CloudMatrix 384超節(jié)點已經(jīng)在烏蘭察布、貴安、蕪湖等三個地方完成了規(guī)模化部署,支撐起超過160個第三方大模型的訓(xùn)練推理,并同步適配了Deep Seek等模型的應(yīng)用場景。產(chǎn)業(yè)資源的優(yōu)勢,成為了中國發(fā)展ai技術(shù)的核心力量。
03
技術(shù)優(yōu)化
在受到美國的全面封鎖之后,中國企業(yè)就開始將目光轉(zhuǎn)向技術(shù)優(yōu)化策略。一邊通過技術(shù)優(yōu)化提升整體性能,一邊深度聯(lián)合產(chǎn)業(yè)鏈對卡脖子的困境進(jìn)行突圍。
除上述提到的超節(jié)點技術(shù)之外,在被美國出口管制期間,最早一批通過技術(shù)優(yōu)化實現(xiàn)性能提升的產(chǎn)品可以追溯到華為的麒麟9000S,然后就是Deep Seek。
麒麟9000S的等效工藝為7nm,采用浸潤式DUV光刻機(jī)和自對準(zhǔn)多重圖案化制造完成。其內(nèi)部CPU的大中核心為華為自研的泰山架構(gòu),小核心采用了ARM提供的A510,支持8核12線程的超線程技術(shù)。
![]()
在此之前,超線程技術(shù)一直被用在X86架構(gòu)的PC領(lǐng)域,麒麟9000S是行業(yè)內(nèi)第一款支持超線程的ARM芯片。
在同等工藝下,想要提升性能無非兩種方法,超頻和超線程。
超頻就是單純拉高芯片的CPU頻率,以此來獲得更好的性能表現(xiàn)。對比未超頻的CPU,想要完全發(fā)揮出超頻技術(shù)的作用,需要保持在一個較高負(fù)載的場景下。而超線程雖然也可以帶來性能上的提升,但提升的性能跟功耗基本持平,適合應(yīng)用在多任務(wù)場景中。
![]()
超線程適用于PC行業(yè),個人電腦的體積較大,并且散熱效率更高,可以承擔(dān)超線程技術(shù)所帶來的功耗提升。而手機(jī)產(chǎn)品由于尺寸較小,內(nèi)部空間有限,所以對于功耗特別敏感。相對于超線程技術(shù),直接給手機(jī)CPU超頻是更加合適的方案。
但是受限于美國的制裁封鎖,麒麟9000S采用了超線程技術(shù),為了盡可能壓制超線程所帶來的溫度上升,華為在mate60系列的屏幕后面又加入了一大塊均熱板。華為后續(xù)的芯片升級,均可以看做是基于麒麟9000S進(jìn)行的全方位超頻。
![]()
Deep Seek也是如此,通過對特定的場景進(jìn)行針對性訓(xùn)練,用較少的技術(shù)成本實現(xiàn)了比肩GPT的算力性能。在先進(jìn)光刻機(jī)的問題沒有得到有效解決之前,這種用技術(shù)優(yōu)化來穩(wěn)步提升芯片性能的思路,是當(dāng)下中國企業(yè)重點推進(jìn)的方向。
往期經(jīng)典回顧:50萬+閱讀量
往期經(jīng)典回顧:100萬+閱讀量
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.