在AI大模型持續(xù)演進(jìn)與科學(xué)計(jì)算需求快速增長(zhǎng)的背景下,算力產(chǎn)業(yè)正從單點(diǎn)芯片性能競(jìng)爭(zhēng),轉(zhuǎn)向圍繞系統(tǒng)能力邊界展開的新一輪躍遷。近日,在第二屆浦江AI學(xué)術(shù)年會(huì)上,由上海人工智能實(shí)驗(yàn)室DeepLink團(tuán)隊(duì)牽頭的《超節(jié)點(diǎn)技術(shù)體系白皮書》(以下簡(jiǎn)稱“白皮書”)正式發(fā)布。DeepLink團(tuán)隊(duì)聯(lián)合8所頂尖高校、16家核心產(chǎn)業(yè)伙伴達(dá)成了階段性產(chǎn)業(yè)共識(shí),覆蓋芯片研發(fā)、芯片產(chǎn)業(yè)鏈、算力部署、軟件適配、學(xué)術(shù)研究、行業(yè)應(yīng)用等全產(chǎn)業(yè)鏈環(huán)節(jié),是目前市面上參與最廣泛、內(nèi)容最全面的產(chǎn)業(yè)共識(shí)性成果,真正實(shí)現(xiàn)了“全行業(yè)發(fā)聲、全維度共建”。
![]()
隨著大模型預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試擴(kuò)展及Agent應(yīng)用等新范式持續(xù)推高算力需求,算力短缺與算力利用率低下的雙重痛點(diǎn)日益凸顯。數(shù)據(jù)顯示,過去5年預(yù)訓(xùn)練所需算力增長(zhǎng)約3000倍,而同期單芯片算力僅增長(zhǎng)約16倍,單純依靠單芯片性能提升已難以突破產(chǎn)業(yè)發(fā)展瓶頸,算力競(jìng)爭(zhēng)的焦點(diǎn)已從“芯片參數(shù)”轉(zhuǎn)向“系統(tǒng)能力的有效組織與穩(wěn)定兌現(xiàn)”。在此背景下,超節(jié)點(diǎn)作為追求算力增長(zhǎng)的極致系統(tǒng)工程路徑,其核心價(jià)值不在于硬件的簡(jiǎn)單堆疊,而在于通過高帶寬、低時(shí)延、低抖動(dòng)的受控系統(tǒng)域,整合通信、遠(yuǎn)端訪存、協(xié)同調(diào)度等關(guān)鍵能力,將理論算力潛力轉(zhuǎn)化為真實(shí)場(chǎng)景中可交付的有效產(chǎn)出(Goodput),這也是白皮書重點(diǎn)破解的核心命題。
在內(nèi)容組織上,白皮書從架構(gòu)分析、軟件系統(tǒng)、建模仿真、參考設(shè)計(jì)和未來演進(jìn)五大維度全面展開,形成了完整的技術(shù)體系梳理:既深入梳理超節(jié)點(diǎn)形成的技術(shù)背景與演進(jìn)邏輯,解讀當(dāng)前Scale-up架構(gòu)成為算力突破關(guān)鍵的行業(yè)趨勢(shì);也詳細(xì)探討統(tǒng)一內(nèi)存訪問、通信庫、編程模型、RAS可靠性體系和訓(xùn)練推理工程等軟件兌現(xiàn)路徑,回應(yīng)行業(yè)對(duì)“軟硬協(xié)同”的核心需求;既通過建模仿真將系統(tǒng)邊界、真實(shí)交付與未來演進(jìn)納入統(tǒng)一坐標(biāo)系,也結(jié)合產(chǎn)業(yè)現(xiàn)狀推出五類超節(jié)點(diǎn)參考構(gòu)型,涵蓋總線全對(duì)等互聯(lián)、以太全對(duì)等互聯(lián)等標(biāo)準(zhǔn)構(gòu)型,以及Dragonfly、3DTorus和大環(huán)路加分布式OCS等前沿構(gòu)型,適配不同產(chǎn)業(yè)階段、不同負(fù)載特征和不同供應(yīng)鏈條件下的設(shè)計(jì)取舍,為產(chǎn)業(yè)落地提供直接參考。相較于當(dāng)前行業(yè)內(nèi)部分聚焦單一互聯(lián)技術(shù)、單一硬件方案的相關(guān)成果,本白皮書全面覆蓋超節(jié)點(diǎn)從理論到實(shí)踐、從硬件到軟件、從現(xiàn)狀到未來的全維度內(nèi)容,為不同領(lǐng)域的參與者提供了清晰的行動(dòng)指引。
![]()
白皮書推動(dòng)形成“技術(shù)共識(shí)—實(shí)踐驗(yàn)證—迭代優(yōu)化”的良性循環(huán),為超節(jié)點(diǎn)技術(shù)發(fā)展提供了可討論、可驗(yàn)證、可持續(xù)演進(jìn)的系統(tǒng)工程框架,推動(dòng)算力產(chǎn)業(yè)從“單點(diǎn)突破”走向“系統(tǒng)躍遷”,為AI與科學(xué)計(jì)算發(fā)展夯實(shí)基礎(chǔ)。發(fā)布現(xiàn)場(chǎng)強(qiáng)調(diào),白皮書的發(fā)布只是起點(diǎn),而非終點(diǎn)。上海AI實(shí)驗(yàn)室特向全行業(yè)發(fā)出誠摯邀約,歡迎更多高校、科研機(jī)構(gòu)、產(chǎn)業(yè)伙伴、技術(shù)從業(yè)者加入白皮書的內(nèi)容建設(shè)中來,共同豐富內(nèi)容體系、驗(yàn)證技術(shù)方案、完善參考設(shè)計(jì)、推動(dòng)標(biāo)準(zhǔn)落地,讓白皮書持續(xù)迭代升級(jí),真正成為引領(lǐng)超節(jié)點(diǎn)技術(shù)發(fā)展、支撐產(chǎn)業(yè)高質(zhì)量發(fā)展的核心指南。
![]()
面向未來,隨著AI技術(shù)與科學(xué)計(jì)算的深度融合,超節(jié)點(diǎn)將成為AI時(shí)代的核心計(jì)算單元,其技術(shù)演進(jìn)與產(chǎn)業(yè)落地將深刻影響算力產(chǎn)業(yè)的發(fā)展格局。相信在全行業(yè)的共同參與和協(xié)同發(fā)力下,超節(jié)點(diǎn)技術(shù)將持續(xù)突破能力邊界,推動(dòng)算力基礎(chǔ)設(shè)施實(shí)現(xiàn)跨越式發(fā)展,為通用人工智能的到來筑牢根基。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.