![]()
XSKY 星辰天合案例
該AI Infra案例由XSKY 星辰天合投遞并參與金猿組委會(huì)×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟共同推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)評選。
隨著大語言模型(LLM)、多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級增長,AI 技術(shù)對數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出三重極致要求:一方面,AI全工作流(數(shù)據(jù)采集→清洗預(yù)處理→GPU高并發(fā)訓(xùn)練→模型推理)需TB/s級帶寬與低延遲I/O,任何存儲(chǔ)瓶頸都會(huì)導(dǎo)致昂貴GPU算力閑置;另一方面,海量原始數(shù)據(jù)、中間數(shù)據(jù)、歸檔數(shù)據(jù)需長期保存,單一存儲(chǔ)介質(zhì)難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲(chǔ)已成為業(yè)界共識(shí)。
但傳統(tǒng)分層方案存在三大核心痛點(diǎn),嚴(yán)重制約AI效率:
?盲目流動(dòng)
基于數(shù)據(jù)創(chuàng)建時(shí)間(mtime)分層,高頻訪問的訓(xùn)練集可能因“到期”被降級至慢速混閃池,導(dǎo)致訓(xùn)練性能驟降;
?割裂命名空間
數(shù)據(jù)在不同存儲(chǔ)層間流動(dòng)需手動(dòng)切換路徑/掛載點(diǎn),易因操作失誤導(dǎo)致訓(xùn)練失敗;
?高昂隱性成本
為避免性能問題,企業(yè)被迫將更多數(shù)據(jù)保留在全閃存層,或反復(fù)“搬運(yùn)”降級數(shù)據(jù)回?zé)釋樱聘呖倱碛谐杀荆═CO)。
某大型智算中心曾因開源方案缺乏智能分層能力,數(shù)據(jù)預(yù)處理效率低下,GPU 等待時(shí)間過長,無法實(shí)現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動(dòng)歸檔”的順暢流轉(zhuǎn)。為破解上述困境,北京星辰天合科技股份有限公司基于XEOS對象存儲(chǔ),推出“XEOS AI數(shù)據(jù)湖方案”,通過智能數(shù)據(jù)流動(dòng)機(jī)制,重塑AI分層存儲(chǔ)邏輯,為頭部AGI廠商、國家級AI實(shí)驗(yàn)室、大型智算中心提供高效數(shù)據(jù)底座。
時(shí)間周期:
開始時(shí)間:2024年10月12日
中間重要時(shí)間節(jié)點(diǎn):
?項(xiàng)目第一批交付時(shí)間為2024年10月至12月,共交付不同地域機(jī)房的4個(gè)集群,總計(jì)約9PB容量;
?項(xiàng)目第二批交付時(shí)間為2025年2月至6月,新增2個(gè)地域機(jī)房的2個(gè)集群,同時(shí)擴(kuò)容原有的3個(gè)集群,共計(jì)約46PB。
完結(jié)時(shí)間:2025年6月
AI Infra應(yīng)用需求
隨著大語言模型(LLM)、多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級增長,AI 技術(shù)對數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出三重極致要求。
一方面,AI全工作流(數(shù)據(jù)采集→清洗預(yù)處理→GPU高并發(fā)訓(xùn)練→模型推理)需TB/s級帶寬與低延遲I/O,任何存儲(chǔ)瓶頸都會(huì)導(dǎo)致昂貴GPU算力閑置。在數(shù)據(jù)采集階段,大量的原始數(shù)據(jù)需要快速地傳輸?shù)酱鎯?chǔ)系統(tǒng)中,這就要求存儲(chǔ)系統(tǒng)具備高帶寬的寫入能力。例如,在一些大規(guī)模的圖像識(shí)別項(xiàng)目中,每天需要采集數(shù)百萬張圖片,這些圖片的數(shù)據(jù)量可能達(dá)到數(shù)百GB甚至數(shù)TB,如果存儲(chǔ)系統(tǒng)的寫入帶寬不足,就會(huì)導(dǎo)致數(shù)據(jù)采集的速度變慢,影響整個(gè)項(xiàng)目的進(jìn)度。
在清洗預(yù)處理階段,數(shù)據(jù)需要進(jìn)行各種處理和轉(zhuǎn)換,這就要求存儲(chǔ)系統(tǒng)具備高帶寬的讀取能力。例如,在一些自然語言處理項(xiàng)目中,需要對大量的文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注等處理,這些處理需要頻繁地讀取存儲(chǔ)系統(tǒng)中的數(shù)據(jù),如果存儲(chǔ)系統(tǒng)的讀取帶寬不足,就會(huì)導(dǎo)致處理速度變慢,影響整個(gè)項(xiàng)目的效率。
在GPU高并發(fā)訓(xùn)練階段,大量的GPU需要同時(shí)訪問存儲(chǔ)系統(tǒng)中的數(shù)據(jù),這就要求存儲(chǔ)系統(tǒng)具備低延遲的I/O能力。例如,在一些深度學(xué)習(xí)項(xiàng)目中,需要使用數(shù)千個(gè)GPU進(jìn)行并行訓(xùn)練,如果存儲(chǔ)系統(tǒng)的I/O延遲過高,就會(huì)導(dǎo)致GPU等待數(shù)據(jù)的時(shí)間過長,影響整個(gè)訓(xùn)練的速度和效率。
另一方面,海量原始數(shù)據(jù)、中間數(shù)據(jù)、歸檔數(shù)據(jù)需長期保存,單一存儲(chǔ)介質(zhì)難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲(chǔ)已成為業(yè)界共識(shí)。全閃存存儲(chǔ)介質(zhì)具備高性能、低延遲的特點(diǎn),適合存儲(chǔ)熱點(diǎn)數(shù)據(jù)和頻繁訪問的數(shù)據(jù);而混閃存儲(chǔ)介質(zhì)則具備大容量、低成本的特點(diǎn),適合存儲(chǔ)冷數(shù)據(jù)和長期保存的數(shù)據(jù)。通過將不同類型的數(shù)據(jù)存儲(chǔ)在不同的存儲(chǔ)介質(zhì)中,可以實(shí)現(xiàn)性能與成本的平衡,提高整個(gè)存儲(chǔ)系統(tǒng)的效率和性價(jià)比。
綜上所述,AI技術(shù)對數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出了極高的要求,需要采用分層存儲(chǔ)等技術(shù)來滿足這些要求。
面臨挑戰(zhàn)
在當(dāng)今人工智能技術(shù)如日中天、飛速發(fā)展的時(shí)代,數(shù)據(jù)存儲(chǔ)對于AI效率的影響日益凸顯,已經(jīng)成為制約其進(jìn)一步發(fā)展的關(guān)鍵因素。然而,傳統(tǒng)分層方案卻存在著三大核心痛點(diǎn),如同三道難以逾越的關(guān)卡,嚴(yán)重制約著AI效率的提升。
首先是令人頭疼的“盲目流動(dòng)”問題。傳統(tǒng)方案在進(jìn)行數(shù)據(jù)分層時(shí),往往機(jī)械地基于數(shù)據(jù)創(chuàng)建時(shí)間(mtime)來操作。這種簡單粗暴的分層方式,會(huì)使得那些在AI訓(xùn)練過程中被高頻訪問的訓(xùn)練集,僅僅因?yàn)闀r(shí)間限制“到期”,就被無情地降級至慢速混閃池。想象一下,一個(gè)正處于關(guān)鍵訓(xùn)練階段、被頻繁調(diào)用的數(shù)據(jù)集,就像一位在戰(zhàn)場上沖鋒陷陣的勇士,突然被剝奪了精良的裝備,被扔到了后方。這直接導(dǎo)致訓(xùn)練性能急劇下降,使得原本昂貴的GPU算力大量閑置,就如同將珍貴的資源白白浪費(fèi),嚴(yán)重阻礙了AI訓(xùn)練的正常進(jìn)程。
其次,“割裂命名空間”帶來的麻煩也不容小覷。當(dāng)數(shù)據(jù)需要在不同存儲(chǔ)層間流動(dòng)時(shí),數(shù)據(jù)科學(xué)家不得不手動(dòng)切換路徑或掛載點(diǎn)。這一過程就像是在一個(gè)錯(cuò)綜復(fù)雜的迷宮中摸索前行,不僅操作復(fù)雜繁瑣,而且極易因?yàn)槿藶榈氖韬龌蚴д`導(dǎo)致訓(xùn)練失敗。在大型AI項(xiàng)目中,數(shù)據(jù)量龐大且流動(dòng)頻繁,哪怕是一個(gè)細(xì)微的路徑輸入錯(cuò)誤,就如同在精密的機(jī)器中放入了一顆錯(cuò)誤的螺絲釘,都可能使得整個(gè)訓(xùn)練任務(wù)前功盡棄,讓之前投入的大量時(shí)間和資源付諸東流。
最后,“高昂隱性成本”成為了企業(yè)沉重的負(fù)擔(dān)。為了避免因數(shù)據(jù)存儲(chǔ)問題導(dǎo)致的性能下降,企業(yè)無奈之下只能采取一些“無奈之舉”。要么將更多的數(shù)據(jù)保留在全閃存層,這無疑增加了存儲(chǔ)設(shè)備的采購成本;要么反復(fù)將降級的數(shù)據(jù)“搬運(yùn)”回?zé)釋樱@不僅消耗了大量的人力,還浪費(fèi)了寶貴的時(shí)間。這些額外的成本不斷累積,極大地推高了總擁有成本(TCO)。長此以往,企業(yè)在 AI投入上的經(jīng)濟(jì)壓力愈發(fā)沉重,就像背著沉重的包袱在前行,舉步維艱。
戰(zhàn)略目標(biāo)
構(gòu)建AI Infra所期望達(dá)成的頂層戰(zhàn)略目標(biāo),旨在為從數(shù)據(jù)預(yù)處理到模型訓(xùn)練、推理的全流程業(yè)務(wù)提供堅(jiān)實(shí)且高效的方案支撐。
在頭部AGI廠商場景中,該戰(zhàn)略目標(biāo)聚焦于應(yīng)對高負(fù)荷的數(shù)據(jù)讀寫需求。要能夠穩(wěn)定承載周期性近2Tbps的寫入,以及承受峰值5Tbps的突發(fā)讀取。更為關(guān)鍵的是,將數(shù)據(jù)處理的時(shí)延嚴(yán)格控制在8ms以內(nèi)。如此一來,便能確保在數(shù)據(jù)高速流轉(zhuǎn)的過程中,頭部AGI廠商的業(yè)務(wù)可以高效、穩(wěn)定地運(yùn)行,避免因數(shù)據(jù)處理不及時(shí)而導(dǎo)致的業(yè)務(wù)停滯或效率下降。
在大型智算中心場景方面,戰(zhàn)略目標(biāo)體現(xiàn)為在短時(shí)間內(nèi)實(shí)現(xiàn)數(shù)據(jù)的快速增長與高效處理。要在4個(gè)月內(nèi)支撐超20PB的數(shù)據(jù)增長,并且達(dá)到149.34GB/s的讀取峰值。通過這樣的能力提升,能夠顯著提高數(shù)據(jù)預(yù)處理的效率,相較于原開源方案可提升300%。這種效率的大幅提升意義重大,它可以徹底解決GPU算力閑置的問題,讓GPU資源得到充分利用,從而提高整個(gè)智算中心的運(yùn)算效率,降低運(yùn)營成本,推動(dòng)大型智算中心在人工智能領(lǐng)域發(fā)揮更大的作用,為AI技術(shù)的發(fā)展提供強(qiáng)大的基礎(chǔ)支撐。
實(shí)施與部署過程
在人工智能(AI)領(lǐng)域蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)量呈現(xiàn)出“爆發(fā)式增長”的態(tài)勢,大模型訓(xùn)練對數(shù)據(jù)存儲(chǔ)的性能、可靠性和管理效率提出了前所未有的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)架構(gòu)在應(yīng)對這些挑戰(zhàn)時(shí)逐漸顯得力不從心,如多存儲(chǔ)層割裂導(dǎo)致的數(shù)據(jù)搬運(yùn)成本高、性能損耗大,按創(chuàng)建時(shí)間分層無法精準(zhǔn)適配數(shù)據(jù)實(shí)際訪問模式等問題。為了滿足AI數(shù)據(jù)存儲(chǔ)的“高并發(fā)、高帶寬”需求,提升數(shù)據(jù)管理的智能化水平,一套創(chuàng)新型的AI數(shù)據(jù)存儲(chǔ)解決方案應(yīng)運(yùn)而生。
1.技術(shù)創(chuàng)新:重構(gòu)AI數(shù)據(jù)分層邏輯
·基于訪問時(shí)間(atime)的智能生命周期管理
傳統(tǒng)的數(shù)據(jù)分層方式往往是“按創(chuàng)建時(shí)間分層”,這種方式存在明顯的局限性,無法準(zhǔn)確反映數(shù)據(jù)的實(shí)際使用頻率。而本方案打破了這一局限,引入了基于訪問時(shí)間(atime)的智能生命周期管理機(jī)制。系統(tǒng)具備實(shí)時(shí)感知數(shù)據(jù)訪問行為的能力,能夠精準(zhǔn)捕獲如GetObject/HeadObject等操作。每一次數(shù)據(jù)訪問都會(huì)自動(dòng)刷新atime,這意味著數(shù)據(jù)的分層計(jì)劃會(huì)根據(jù)其實(shí)際訪問情況動(dòng)態(tài)調(diào)整。
對于高頻訓(xùn)練數(shù)據(jù)集,由于其訪問頻繁,atime會(huì)不斷更新,從而可以長期駐留在全閃熱層。全閃熱層具有高速讀寫的特性,能夠?yàn)槟P陀?xùn)練和推理提供穩(wěn)定的高性能支持,保障訓(xùn)練性能的穩(wěn)定性。而那些“長期無訪問”的冷數(shù)據(jù),則會(huì)自動(dòng)流向低成本混閃池。混閃池采用“SSD+HDD”的架構(gòu),在保證一定性能的同時(shí),有效降低了存儲(chǔ)成本。這種智能的生命周期管理機(jī)制,使得數(shù)據(jù)存儲(chǔ)資源得到了更加合理的分配,提高了整體存儲(chǔ)系統(tǒng)的性價(jià)比。
2.分層數(shù)據(jù)訪問增強(qiáng):透明化+自動(dòng)緩存
為了提升數(shù)據(jù)訪問的效率和用戶體驗(yàn),本方案實(shí)現(xiàn)了“一次慢、次次快”的訪問模式,主要通過透明化和自動(dòng)緩存機(jī)制來實(shí)現(xiàn)。
·透明訪問
上層應(yīng)用無需關(guān)心數(shù)據(jù)具體存儲(chǔ)在哪一層,在統(tǒng)一命名空間下,數(shù)據(jù)的訪問路徑保持不變。這避免了用戶手動(dòng)切換存儲(chǔ)層時(shí)可能出現(xiàn)的失誤,降低了使用門檻,提高了操作的便捷性。
·自動(dòng)緩存回?zé)?/strong>
當(dāng)首次訪問冷層數(shù)據(jù)時(shí),系統(tǒng)會(huì)異步將數(shù)據(jù)緩存至熱層。后續(xù)對該數(shù)據(jù)的訪問將直接從熱層讀取,大大提高了訪問速度。這種機(jī)制使得冷層數(shù)據(jù)在被訪問后能夠快速“回?zé)帷保浞掷昧藷釋拥母咝阅軆?yōu)勢。
·訪問續(xù)期
每一次對緩存數(shù)據(jù)的訪問都會(huì)刷新其過期時(shí)間,確保熱點(diǎn)數(shù)據(jù)能夠長期駐留在高速層。這樣可以持續(xù)為高頻訪問的數(shù)據(jù)提供快速響應(yīng),避免了因數(shù)據(jù)過期被清理而導(dǎo)致的性能下降。
·主動(dòng)預(yù)熱
系統(tǒng)支持通過批量HeadObject操作提前預(yù)熱數(shù)據(jù)集。這意味著用戶可以在需要使用某些數(shù)據(jù)之前,主動(dòng)將其加載到熱層,從而實(shí)現(xiàn)首次訪問即達(dá)極致性能,進(jìn)一步提升了數(shù)據(jù)訪問的效率。
2.架構(gòu)創(chuàng)新:統(tǒng)一命名空間下的高效分層架構(gòu)
傳統(tǒng)的存儲(chǔ)架構(gòu)存在“多存儲(chǔ)層割裂”的問題,不同存儲(chǔ)層之間的數(shù)據(jù)搬運(yùn)操作成本高,且會(huì)導(dǎo)致性能損耗。本方案摒棄了這種傳統(tǒng)設(shè)計(jì),在統(tǒng)一命名空間內(nèi)整合了“高性能全閃熱層”與“大容量混閃溫冷層”。
·分層功能與職責(zé)
熱層采用全閃存介質(zhì),針對模型訓(xùn)練、推理等高頻訪問場景進(jìn)行了優(yōu)化。它能夠提供低至毫秒級的時(shí)延和TB/s級的帶寬,滿足GPU集群高并發(fā)數(shù)據(jù)加載的需求,為AI模型的訓(xùn)練和推理提供了強(qiáng)大的性能支持。溫冷層則采用“SSD+HDD”的混閃架構(gòu),以較低的成本承載原始數(shù)據(jù)、中間結(jié)果、訓(xùn)練日志等低頻訪問數(shù)據(jù)。同時(shí),溫冷層支持自動(dòng)歸檔與生命周期清理功能,能夠有效管理長期存儲(chǔ)的數(shù)據(jù)。
·數(shù)據(jù)流動(dòng)優(yōu)勢
在數(shù)據(jù)在層間流動(dòng)時(shí),訪問路徑和權(quán)限控制保持一致。這意味著用戶無需擔(dān)心數(shù)據(jù)遷移過程中出現(xiàn)的權(quán)限問題和路徑變更問題,徹底消除了“數(shù)據(jù)搬運(yùn)”的操作成本與性能損耗。數(shù)據(jù)可以在熱層和溫冷層之間智能流動(dòng),根據(jù)其實(shí)際使用情況動(dòng)態(tài)調(diào)整存儲(chǔ)位置,實(shí)現(xiàn)了數(shù)據(jù)的高效管理和利用。
3.性能創(chuàng)新:TB/s級帶寬與金融級可靠性
·分布式架構(gòu)與線性擴(kuò)展
本方案基于分布式架構(gòu)設(shè)計(jì),具有良好的擴(kuò)展性。單集群可承載EB級容量,能夠輕松應(yīng)對AI數(shù)據(jù)的“爆發(fā)式增長”。隨著數(shù)據(jù)量的增加,系統(tǒng)可以通過線性擴(kuò)展的方式,添加更多的存儲(chǔ)節(jié)點(diǎn)來提升整體存儲(chǔ)容量和性能。這種擴(kuò)展性使得系統(tǒng)能夠適應(yīng)不斷變化的業(yè)務(wù)需求,為企業(yè)的長期發(fā)展提供了有力保障。
·優(yōu)化I/O調(diào)度算法
為了在極限壓力下仍能保持低時(shí)延,方案對I/O調(diào)度算法進(jìn)行了優(yōu)化。在頭部AGI廠商場景中,系統(tǒng)的峰值讀取帶寬可達(dá)5Tbps,讀取時(shí)延≤8ms;在智算中心場景中,讀取峰值達(dá)149.34GB/s。這些數(shù)據(jù)表明,系統(tǒng)能夠滿足大模型“高并發(fā)、高帶寬”的訓(xùn)練需求,為AI模型的高效訓(xùn)練提供了堅(jiān)實(shí)的性能基礎(chǔ)。
·金融級可靠性
系統(tǒng)繼承了星辰天合企業(yè)級存儲(chǔ)的金融級可靠性,數(shù)據(jù)可用性達(dá) 99.9999%。這意味著在實(shí)際應(yīng)用中,數(shù)據(jù)能夠得到高度的保障,減少了因數(shù)據(jù)丟失或損壞而導(dǎo)致的業(yè)務(wù)中斷風(fēng)險(xiǎn)。對于金融、醫(yī)療等對數(shù)據(jù)可靠性要求極高的行業(yè),這種高可靠性的存儲(chǔ)系統(tǒng)具有重要的意義。
4.技術(shù)方案
架構(gòu)設(shè)計(jì):“一層兩面”智能數(shù)據(jù)湖架構(gòu)
·統(tǒng)一命名空間層
統(tǒng)一命名空間層是整個(gè)架構(gòu)的核心,它實(shí)現(xiàn)了“數(shù)據(jù)位置透明化”。無論數(shù)據(jù)存于全閃熱層還是混閃溫冷層,應(yīng)用均可以通過統(tǒng)一路徑訪問,無需修改代碼或切換掛載點(diǎn)。這大大簡化了應(yīng)用開發(fā)和運(yùn)維的難度,提高了系統(tǒng)的兼容性和可維護(hù)性。同時(shí),該層集成了權(quán)限管理和元數(shù)據(jù)索引功能,能夠有效保障數(shù)據(jù)安全,提高數(shù)據(jù)檢索效率。通過權(quán)限管理,企業(yè)可以對不同用戶或用戶組設(shè)置不同的訪問權(quán)限,確保數(shù)據(jù)的安全性;元數(shù)據(jù)索引則可以快速定位數(shù)據(jù),提高數(shù)據(jù)查詢的速度。
作為架構(gòu)核心,實(shí)現(xiàn)“數(shù)據(jù)位置透明化”——無論數(shù)據(jù)存于全閃熱層還是混閃溫冷層,應(yīng)用均通過統(tǒng)一路徑訪問,無需修改代碼或切換掛載點(diǎn);同時(shí)集成權(quán)限管理、元數(shù)據(jù)索引功能,保障數(shù)據(jù)安全與檢索效率。
·熱層(高性能全閃)
熱層采用全閃存介質(zhì),針對模型訓(xùn)練、推理等高頻訪問場景進(jìn)行了深度優(yōu)化。它能夠提供低至毫秒級的時(shí)延和TB/s級的帶寬,滿足GPU集群高并發(fā)數(shù)據(jù)加載需求。在實(shí)際應(yīng)用中,熱層可以為AI模型的訓(xùn)練和推理提供快速的數(shù)據(jù)支持,提高訓(xùn)練效率和模型性能。
·溫冷層(大容量混閃)
溫冷層采用“SSD+HDD”的混閃架構(gòu),以低成本承載原始數(shù)據(jù)、中間結(jié)果、訓(xùn)練日志等低頻訪問數(shù)據(jù)。該層支持自動(dòng)歸檔與生命周期清理功能,能夠有效管理長期存儲(chǔ)的數(shù)據(jù)。通過自動(dòng)歸檔,企業(yè)可以將不再頻繁使用的數(shù)據(jù)進(jìn)行長期保存;生命周期清理則可以定期清理過期數(shù)據(jù),釋放存儲(chǔ)資源。
·智能流動(dòng)引擎
智能流動(dòng)引擎是實(shí)現(xiàn)數(shù)據(jù)智能管理的關(guān)鍵組件,它基于atime生命周期策略與自動(dòng)緩存機(jī)制,實(shí)現(xiàn)了“冷數(shù)據(jù)智能沉降”和“熱數(shù)據(jù)自動(dòng)回?zé)帷薄iL期無訪問的數(shù)據(jù)會(huì)從熱層自動(dòng)遷移至溫冷層,實(shí)現(xiàn)冷數(shù)據(jù)的智能沉降;而當(dāng)冷層數(shù)據(jù)被訪問時(shí),會(huì)自動(dòng)緩存至熱層,實(shí)現(xiàn)熱數(shù)據(jù)的自動(dòng)回?zé)帷U麄€(gè)過程無需人工干預(yù),大大提高了數(shù)據(jù)管理的效率和智能化水平。
![]()
關(guān)鍵技術(shù)實(shí)現(xiàn)
·atime精準(zhǔn)感知
通過內(nèi)核級優(yōu)化,系統(tǒng)能夠?qū)崟r(shí)捕獲每一次數(shù)據(jù)訪問行為,確保atime更新延遲≤100ms。這避免了因“誤判熱點(diǎn)數(shù)據(jù)”而導(dǎo)致的性能降級。在實(shí)際應(yīng)用中,準(zhǔn)確的atime感知能夠保證數(shù)據(jù)生命周期管理的準(zhǔn)確性,使得數(shù)據(jù)能夠根據(jù)其實(shí)際使用情況進(jìn)行合理的分層和遷移。
·異步緩存調(diào)度
首次訪問冷層數(shù)據(jù)時(shí),系統(tǒng)采用“同步返回?cái)?shù)據(jù)+異步緩存”的機(jī)制。這種機(jī)制既保障了業(yè)務(wù)的連續(xù)性,避免了額外的延遲,又實(shí)現(xiàn)了后續(xù)訪問的加速。在實(shí)際操作中,用戶在首次訪問冷層數(shù)據(jù)時(shí),能夠快速獲取數(shù)據(jù),同時(shí)系統(tǒng)會(huì)在后臺(tái)將數(shù)據(jù)緩存至熱層,為后續(xù)的快速訪問做好準(zhǔn)備。
·彈性擴(kuò)容機(jī)制
系統(tǒng)支持在線擴(kuò)容,新增節(jié)點(diǎn)可以自動(dòng)加入集群并參與數(shù)據(jù)重平衡。在擴(kuò)容期間,業(yè)務(wù)不會(huì)中斷,保證了系統(tǒng)的穩(wěn)定性和可靠性。以某智算中心為例,在擴(kuò)容時(shí),訓(xùn)練任務(wù)仍能保持149.34GB/s的讀取峰值,無性能波動(dòng)。這種彈性擴(kuò)容機(jī)制使得系統(tǒng)能夠根據(jù)業(yè)務(wù)需求靈活調(diào)整存儲(chǔ)容量,適應(yīng)不斷變化的市場環(huán)境。
綜上所述,這套創(chuàng)新型的AI數(shù)據(jù)存儲(chǔ)解決方案通過技術(shù)創(chuàng)新、架構(gòu)創(chuàng)新和性能創(chuàng)新,為AI數(shù)據(jù)存儲(chǔ)提供了一套全面、高效、智能的解決方案。它解決了傳統(tǒng)存儲(chǔ)架構(gòu)存在的諸多問題,能夠滿足AI領(lǐng)域?qū)?shù)據(jù)存儲(chǔ)的高性能、高可靠性和智能化管理的需求。隨著AI技術(shù)的不斷發(fā)展,相信這種創(chuàng)新型的存儲(chǔ)解決方案將在更多的領(lǐng)域得到廣泛應(yīng)用,為推動(dòng)AI產(chǎn)業(yè)的發(fā)展提供有力支持。
合作服務(wù)效果
1.經(jīng)濟(jì)效益
·降本
通過“智能分層+混閃架構(gòu)”,客戶存儲(chǔ)TCO平均降低30%-60%——某智算中心避免了全閃存過度配置,年節(jié)省存儲(chǔ)采購成本超千萬元;頭部AGI廠商通過冷數(shù)據(jù)自動(dòng)歸檔,減少30%全閃容量占用。
·增效
消除數(shù)據(jù)流動(dòng)的人工干預(yù)與性能損耗,數(shù)據(jù)預(yù)處理效率提升300%,GPU利用率提升25%-75%——某智算中心GPU等待時(shí)間從日均4小時(shí)縮短至1小時(shí),年增加模型訓(xùn)練迭代次數(shù)超50次。
·彈性擴(kuò)展
支持在線擴(kuò)容,無需停機(jī),滿足AI數(shù)據(jù)“爆發(fā)式增長”需求——某客戶4個(gè)月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容,未影響任何訓(xùn)練任務(wù),避免因擴(kuò)容中斷導(dǎo)致的研發(fā)延誤(日均損失超百萬元)。
2.社會(huì)效益
·推動(dòng)AI技術(shù)創(chuàng)新
通過高效數(shù)據(jù)底座,釋放GPU算力,幫助頭部AGI廠商、國家級實(shí)驗(yàn)室突破模型訓(xùn)練效率瓶頸,加速SOTA模型研發(fā),助力我國AI技術(shù)在全球競爭中保持領(lǐng)先。
·降低AI落地門檻
通過“高性能+低成本”的平衡方案,讓中小型AI企業(yè)無需承擔(dān)高昂全閃存成本即可獲得TB/s級存儲(chǔ)能力,推動(dòng)AI技術(shù)在制造、醫(yī)療、金融等行業(yè)的普及。
·綠色低碳
混閃架構(gòu)與智能分層減少了高能耗全閃存的使用量,某智算中心采用方案后,存儲(chǔ)系統(tǒng)年耗電量降低28%,符合“雙碳”目標(biāo),助力AI產(chǎn)業(yè)綠色發(fā)展。
關(guān)于企業(yè)
·XSKY 星辰天合
XSKY 星辰天合是面向AI時(shí)代的統(tǒng)一數(shù)據(jù)平臺(tái)提供商。十年專注分布式存儲(chǔ),長期位列IDC市場報(bào)告“TOP 5”,且是唯一獨(dú)立存儲(chǔ)廠商,同時(shí)在對象存儲(chǔ)市場保持長期領(lǐng)導(dǎo)者地位,公司產(chǎn)品已在3000+客戶的企業(yè)級生產(chǎn)環(huán)境經(jīng)受驗(yàn)證,為企業(yè)AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠的數(shù)據(jù)底座。
·某通用人工智能科技公司
該企業(yè)是全球領(lǐng)先的通用人工智能(AGI)科技公司,以前沿研究持續(xù)推動(dòng)AI技術(shù)進(jìn)步,致力于實(shí)現(xiàn)通用人工智能的未來。公司自主研發(fā)了具有業(yè)界競爭力的多模態(tài)通用大模型,在代碼生成、智能體(Agent)能力及超長上下文處理等方面表現(xiàn)卓越,能夠深度融合并理解文本、音頻、視頻等多種信息模態(tài)。依托于核心自研模型,企業(yè)已推出一系列AI原生產(chǎn)品與開放平臺(tái),服務(wù)范圍覆蓋全球超200個(gè)國家及地區(qū),累計(jì)觸達(dá)個(gè)人用戶突破一億,并為來自90余個(gè)國家及地區(qū)的超過5萬家企業(yè)客戶與開發(fā)者提供技術(shù)支持與解決方案。
★以上由XSKY 星辰天合投遞申報(bào)的AI Infra案例,最終將會(huì)角逐由金猿組委會(huì)×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)。
該榜單最終將于1月上旬上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢論壇”現(xiàn)場首次揭曉榜單,并舉行頒獎(jiǎng)儀式,歡迎報(bào)名蒞臨現(xiàn)場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.