興建于公元前295年,藏書(shū)量高達(dá)70萬(wàn)卷,并存有歐幾里得《幾何原本》、荷馬史詩(shī)全集等典籍的亞歷山大圖書(shū)館,被稱(chēng)為人類(lèi)歷史上最偉大的圖書(shū)館。
然而,這座人類(lèi)知識(shí)的殿堂,卻對(duì)文明的進(jìn)程沒(méi)有產(chǎn)生任何推動(dòng)價(jià)值,就湮滅為歷史的塵埃。因?yàn)椋R(shí)如果不能被檢索、被流轉(zhuǎn)、被利用就無(wú)法產(chǎn)生智慧。
就像是海量的數(shù)據(jù)存在于系統(tǒng)之中,但如果不能被及時(shí)讀取和運(yùn)用,算力就會(huì)“空轉(zhuǎn)”,數(shù)據(jù)就發(fā)揮不出應(yīng)有的價(jià)值。如今,大模型參數(shù)正突破萬(wàn)億級(jí)別,訓(xùn)練數(shù)據(jù)從PB邁向EB級(jí),傳統(tǒng)存儲(chǔ)架構(gòu),就如無(wú)法發(fā)揮價(jià)值的古代圖書(shū)館,無(wú)法滿足AI應(yīng)用對(duì)海量數(shù)據(jù)的渴求。
![]()
在智算崛起的時(shí)代,存儲(chǔ)系統(tǒng)正逐漸成為AI走向規(guī)模化部署的“瓶頸”,一場(chǎng)關(guān)于存儲(chǔ)系統(tǒng)的重構(gòu)勢(shì)在必行。
01
智算時(shí)代
存儲(chǔ)系統(tǒng)面臨復(fù)雜化挑戰(zhàn)
中國(guó)信通院的報(bào)告顯示:95%企業(yè)將基于私域數(shù)據(jù)構(gòu)建專(zhuān)屬模型,需要至少十年的歷史數(shù)據(jù)。
這意味著,當(dāng)企業(yè)AI需求從通用大模型全面邁向?qū)俅竽P偷耐瑫r(shí),存儲(chǔ)系統(tǒng)不僅要承載當(dāng)前的訓(xùn)練數(shù)據(jù),更要能夠面向AI時(shí)代的需求變遷,保持長(zhǎng)期演進(jìn)的能力。
首先,模型復(fù)雜度正大幅增長(zhǎng),參數(shù)規(guī)模從千億向萬(wàn)億級(jí)別躍進(jìn),相應(yīng)的算力基礎(chǔ)設(shè)施從千卡集群擴(kuò)展到萬(wàn)卡規(guī)模,對(duì)存儲(chǔ)系統(tǒng)的讀寫(xiě)帶寬提出了更高要求。
比如,TB級(jí)Checkpoint(模型檢查點(diǎn))的下刷與加載,會(huì)影響訓(xùn)練中斷后的恢復(fù)速度,也是推理階段加載模型的“高速入口”,這對(duì)讀寫(xiě)帶寬提出TB/s級(jí)的要求;再有海量小文件的隨機(jī)讀操作,如訓(xùn)練素材的快速加載、推理階段的KVCache卸載等,都直接影響GPU的利用率,若響應(yīng)延遲過(guò)高,千億參數(shù)的算力洪流便會(huì)因數(shù)據(jù)供給不足而斷流。
其次,數(shù)據(jù)類(lèi)型變得空前復(fù)雜,訓(xùn)練數(shù)據(jù)涵蓋文本、圖像、視頻、結(jié)構(gòu)化數(shù)據(jù)等多種格式,且分散在不同的存儲(chǔ)系統(tǒng)中,有約30%的企業(yè)在數(shù)據(jù)兼容性和統(tǒng)一訪問(wèn)方面遇到了明顯障礙。
第三,業(yè)務(wù)連續(xù)性要求極致可靠,超過(guò)60%的企業(yè)用戶反饋,訓(xùn)練任務(wù)常因底層存儲(chǔ)系統(tǒng)不穩(wěn)定而中斷,而每次中斷意味著大量的計(jì)算資源浪費(fèi)。
不難發(fā)現(xiàn),AI工作負(fù)載對(duì)存儲(chǔ)系統(tǒng)的需求呈現(xiàn)出多重挑戰(zhàn),既需要極高的順序讀寫(xiě)帶寬來(lái)處理檢查點(diǎn)文件,又需要卓越的隨機(jī)讀寫(xiě)性能來(lái)應(yīng)對(duì)海量訓(xùn)練素材的訪問(wèn)。雙重壓力使傳統(tǒng)為單一場(chǎng)景設(shè)計(jì)的存儲(chǔ)架構(gòu)不堪重負(fù)。
![]()
因此,我們需要一種新型存儲(chǔ)系統(tǒng):它必須具備極致的擴(kuò)展能力以容納EB級(jí)數(shù)據(jù),能夠支持混合工作負(fù)載,并通過(guò)智能架構(gòu)避免頻繁的數(shù)據(jù)遷移。而新華三Polaris X20000智算存儲(chǔ)的推出,正是為了迎接AI時(shí)代的挑戰(zhàn)。
02
存儲(chǔ)架構(gòu)重構(gòu)
打通數(shù)據(jù)供給“生命線”
當(dāng)前 AI 算力競(jìng)賽已進(jìn)入“萬(wàn)卡集群”的新階段,存儲(chǔ)架構(gòu)的痛點(diǎn)已從單純的容量需求,升級(jí)為對(duì)低延遲、高并行、智能調(diào)度的系統(tǒng)性訴求,誰(shuí)能率先突破傳統(tǒng)存儲(chǔ)的性能與協(xié)議桎梏,誰(shuí)就能掌握 AI 集群高效運(yùn)轉(zhuǎn)的核心話語(yǔ)權(quán),并推動(dòng)存儲(chǔ)技術(shù)向全棧創(chuàng)新方向演進(jìn)。
首先,在萬(wàn)卡級(jí)AI集群中,計(jì)算與存儲(chǔ)的比例已經(jīng)發(fā)生本質(zhì)變化,傳統(tǒng)存儲(chǔ)的單節(jié)點(diǎn)性能瓶頸會(huì)導(dǎo)致整個(gè)系統(tǒng)無(wú)法充分發(fā)揮GPU集群的算力,這就是為什么單節(jié)點(diǎn)性能突破如此關(guān)鍵。
Polaris X20000通過(guò)全閃存配置實(shí)現(xiàn)單節(jié)點(diǎn)150GB/s的帶寬突破,在最新的MLPerf Storage v2.0基準(zhǔn)測(cè)試中,在保持GPU利用率90%以上的條件下,實(shí)現(xiàn)了單節(jié)點(diǎn)158.92GB/s和集群476.75GB/s的卓越表現(xiàn)。
![]()
其次,在傳統(tǒng)NFS協(xié)議下,客戶端只能連接到單一存儲(chǔ)節(jié)點(diǎn),跨節(jié)點(diǎn)數(shù)據(jù)訪問(wèn)需要二次轉(zhuǎn)發(fā),如同快遞必須經(jīng)過(guò)中轉(zhuǎn)站,增加了延遲和網(wǎng)絡(luò)開(kāi)銷(xiāo)。
而Polaris X20000通過(guò)EPC(Enhanced Parallel Client)高性能并行客戶端,徹底改變了客戶端與存儲(chǔ)節(jié)點(diǎn)的交互模式,它允許單個(gè)客戶端直接并行訪問(wèn)多個(gè)存儲(chǔ)節(jié)點(diǎn),實(shí)現(xiàn)IO級(jí)別的負(fù)載均衡和高效數(shù)據(jù)分布,將“單車(chē)道小路”升級(jí)為“多車(chē)道高速公路”。在真實(shí)的AI檢查點(diǎn)場(chǎng)景中,這種架構(gòu)使TB級(jí)文件能夠并行寫(xiě)入多個(gè)節(jié)點(diǎn),顯著縮短了保存時(shí)間,避免了GPU因等待存儲(chǔ)而空閑。
第三,如今的圖像幀和文本片段等訓(xùn)練素材通常以千萬(wàn)級(jí)小文件形式存在,推理階段的KVCache(鍵值緩存)更是由數(shù)十億個(gè)小IO組成。傳統(tǒng)方案中,小IO與大IO混雜處理會(huì)導(dǎo)致緩存浪費(fèi)、網(wǎng)絡(luò)擁塞。
智能IO分流技術(shù)則可以根據(jù)IO大小智能分配數(shù)據(jù)路徑:小IO直接寫(xiě)入緩存層后立即返回,顯著提升響應(yīng)速度;大IO繞過(guò)緩存,通過(guò)RDMA直接從協(xié)議層拉取數(shù)據(jù),既縮短了IO路徑,又避免了緩存資源的浪費(fèi),真正意義上實(shí)現(xiàn)“以存提效”。
最后,傳統(tǒng)數(shù)據(jù)傳輸需要經(jīng)過(guò)多次內(nèi)存拷貝和上下文切換,CPU大量時(shí)間耗費(fèi)在數(shù)據(jù)搬運(yùn)而非業(yè)務(wù)處理上。而新華三通過(guò)全RDMA互聯(lián)和內(nèi)存零拷貝技術(shù),實(shí)現(xiàn)了內(nèi)核繞行和零拷貝,數(shù)據(jù)直接從發(fā)送端內(nèi)存?zhèn)鬏數(shù)浇邮斩藘?nèi)存,無(wú)需CPU參與,使系統(tǒng)帶寬利用率大幅提升,同時(shí)顯著降低了延遲。
可貴的是,Polaris X20000這一系列技術(shù)創(chuàng)新形成了完整的系統(tǒng)優(yōu)化,并且在多個(gè)實(shí)際部署案例中,成功支撐了從千卡到萬(wàn)卡規(guī)模的AI訓(xùn)練集群,證明了其在真實(shí)生產(chǎn)環(huán)境中的成熟度。
03
三點(diǎn)突破
為智算存儲(chǔ)進(jìn)化帶來(lái)啟示
總結(jié)而言,AI時(shí)代的存儲(chǔ)革命,核心要解決的就是三個(gè)根本要求:
第一是,極致性能以充分釋放GPU算力潛力;第二是,架構(gòu)融合以支持從數(shù)據(jù)預(yù)處理、模型訓(xùn)練到推理部署的全流程;第三是,智能運(yùn)維以確保系統(tǒng)穩(wěn)定并降低運(yùn)營(yíng)成本。
![]()
Polaris X20000之所以代表智算存儲(chǔ)的最佳實(shí)踐,正是因?yàn)樗谶@三個(gè)維度上都實(shí)現(xiàn)了突破性創(chuàng)新。
比如在性能上,Polaris X20000通過(guò)全閃存架構(gòu)和軟件優(yōu)化,實(shí)現(xiàn)了單節(jié)點(diǎn)150GB/s的帶寬突破,同時(shí)保持優(yōu)異的隨機(jī)讀寫(xiě)性能,將GPU訓(xùn)練等待時(shí)間明顯縮短,顯著加速AI研發(fā)進(jìn)程;在架構(gòu)上,實(shí)現(xiàn)了“一套存儲(chǔ)支撐全流程”的目標(biāo),遷移時(shí)間從數(shù)天縮短到零小時(shí),不僅簡(jiǎn)化了數(shù)據(jù)流水線,還確保了數(shù)據(jù)一致性和完整性;在智能運(yùn)維上,引入“AI in ALL”理念,通過(guò)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)故障預(yù)測(cè)、智能調(diào)優(yōu)和自動(dòng)化運(yùn)維,顯著降低運(yùn)維復(fù)雜度和管理成本。
事實(shí)上,隨著大模型持續(xù)進(jìn)化邁向萬(wàn)億參數(shù),多模態(tài)學(xué)習(xí)成為主流,存儲(chǔ)系統(tǒng)的價(jià)值將愈發(fā)凸顯。Polaris X20000給我們的啟示在于,只有當(dāng)存儲(chǔ)系統(tǒng)能夠無(wú)縫支撐數(shù)據(jù)流動(dòng)、智能處理和價(jià)值挖掘時(shí),人工智能才能真正從技術(shù)實(shí)驗(yàn)轉(zhuǎn)變?yōu)楫a(chǎn)業(yè)動(dòng)力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.