![]()
哈嘍,大家好,今天小墨這篇評論,主要來分析國產存儲如何破解GPU空轉難題,讓百萬元算力不再等待廉價數據傳輸。
一臺價值數百萬元的GPU服務器,每天有四小時在"發呆"等數據。這不是危言聳聽,而是國內某大型智算中心曾經真實發生的事。
GPU算力按秒計費,每分鐘閑置都是真金白銀的損失,但傳統存儲方案卻讓這種浪費成了行業常態。
![]()
問題出在哪里?當大語言模型的訓練數據以TB級增長,傳統存儲的"老毛病"徹底暴露了。數據被錯誤降級到慢速存儲層,工程師不得不手動切換路徑,企業為了避免性能下降只能堆砌昂貴的全閃存設備。這些隱性成本累積起來,讓AI訓練的總擁有成本居高不下。
2024年至2025年間,北京星辰天合科技股份有限公司推出的XEOS AI數據湖方案,用一套全新的存儲邏輯給出了答案。
![]()
這套方案通過基于訪問時間而非創建時間的智能分層機制,讓熱數據永遠待在高速通道,冷數據自動歸檔到低成本存儲池,GPU不再空轉等數據。
![]()
傳統存儲讓GPU算力白白浪費
![]()
最要命的是GPU高并發訓練階段。深度學習項目需要使用數千個GPU進行并行訓練,如果存儲系統的I/O延遲過高,GPU就會長時間等待數據,訓練速度和效率都會受到嚴重影響。
2024年8月,中國移動云能力中心主辦的智算存儲論壇上,XSKY產品總監朱榮澤指出,GPU的顯存技術從DDR演進到HBM,內存訪問模式從"延遲敏感"轉變為"帶寬優先"。
HBM需要不斷地從遠端存儲或本地存儲加載數據,內存和數據傳輸之間的互聯帶寬,已經成為AI計算發展的主要瓶頸。
![]()
傳統分層存儲方案的三大痛點更是雪上加霜。第一是盲目流動,按照數據創建時間分層,高頻訪問的訓練集可能因為"到期"就被降級到慢速混閃池,導致訓練性能驟降。
第二是割裂命名空間,數據在不同存儲層間流動需要手動切換路徑或掛載點,稍有失誤就會導致訓練失敗。第三是高昂隱性成本,企業被迫將更多數據保留在全閃存層,或者反復搬運降級數據回熱層,推高了總擁有成本。
![]()
智能分層讓數據自己找對位置
XSKY推出的AI數據湖方案,核心創新在于基于訪問時間(atime)的智能生命周期管理。系統能夠實時感知數據訪問行為,精準捕獲GetObject、HeadObject等操作。
![]()
每一次數據訪問都會自動刷新atime,數據的分層計劃會根據實際訪問情況動態調整。高頻訓練數據集因為訪問頻繁,atime會不斷更新,從而長期駐留在全閃熱層。全閃熱層具有高速讀寫的特性,能夠為模型訓練和推理提供穩定的高性能支持。
那些長期無訪問的冷數據,則會自動流向低成本混閃池。混閃池采用SSD+HDD的架構,在保證一定性能的同時,有效降低了存儲成本。
更重要的是,這套方案實現了統一命名空間下的高效分層架構。上層應用無需關心數據具體存儲在哪一層,在統一命名空間下,數據的訪問路徑保持不變。這避免了用戶手動切換存儲層時可能出現的失誤,降低了使用門檻。
![]()
當首次訪問冷層數據時,系統會異步將數據緩存至熱層。后續對該數據的訪問將直接從熱層讀取,大大提高了訪問速度。
每一次對緩存數據的訪問都會刷新其過期時間,確保熱點數據能夠長期駐留在高速層。系統還支持通過批量HeadObject操作提前預熱數據集,用戶可以在需要使用某些數據之前,主動將其加載到熱層,實現首次訪問即達極致性能。
![]()
真實案例驗證降本增效
2024年10月至2025年6月,XSKY為某頭部AGI廠商和大型智算中心部署了AI數據湖方案。第一批交付了4個集群,總計約9PB容量。
![]()
第二批新增2個集群,同時擴容原有的3個集群,共計約46PB。在頭部AGI廠商場景中,系統穩定承載周期性近2Tbps的寫入,以及峰值5Tbps的突發讀取,數據處理的時延嚴格控制在8ms以內。
在大型智算中心場景,系統在4個月內支撐超20PB的數據增長,讀取峰值達149.34GB/s。數據預處理效率相較于原開源方案提升300%,徹底解決了GPU算力閑置的問題。
某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓練迭代次數超50次。
![]()
經濟效益方面,通過智能分層加混閃架構,客戶存儲TCO平均降低30%至60%。某智算中心避免了全閃存過度配置,年節省存儲采購成本超千萬元。
頭部AGI廠商通過冷數據自動歸檔,減少30%全閃容量占用。系統支持在線擴容,無需停機,滿足AI數據爆發式增長需求。某客戶4個月內完成20PB數據擴容,未影響任何訓練任務,避免因擴容中斷導致的研發延誤。
![]()
根據IDC發布的中國軟件定義存儲市場季度跟蹤報告,XSKY星辰天合在中國整體的SDS市場份額中排名第五,是前五名廠商中唯一的專業軟件定義存儲廠商。
公司產品已在3000多家客戶的企業級生產環境經受驗證,涵蓋政府、金融、運營商、科技、醫療、制造等關鍵領域。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.