![]()
“存儲問題正逐漸成為限制大模型實際應用的關鍵瓶頸
隨著AI大模型的競爭步入2026年,焦點已從單純的“比拼參數(shù)”轉變?yōu)椤氨绕绰涞亍焙汀氨绕葱省薄?/strong>在實際應用中,不少企業(yè)發(fā)現(xiàn),即便已經(jīng)購置了算力卡,但數(shù)據(jù)讀寫卻難以跟上,推理響應速度遲緩,成本居高不下。這一現(xiàn)象的核心矛盾之一,正是存儲架構能否契合AI智能計算的特殊需求,尤其是近期備受矚目的KV Cache存儲瓶頸。
3月17日,一場題為《算力先行,存力為王——誰主沉浮AI智算新生態(tài)?》的直播活動盛大開啟。此次活動由數(shù)據(jù)猿主辦,特別邀請西部數(shù)據(jù)資深售前工程師蘆浩、極道科技首席技術官張京城,以及數(shù)據(jù)猿聯(lián)合創(chuàng)始人兼主編張艷飛擔任直播主持,現(xiàn)場上演了一場精彩絕倫的思想交鋒。
本次活動聚焦KV Cache優(yōu)化、模型訓練加速以及高性價比存儲系統(tǒng)的構建,探討了通過軟硬協(xié)同如何有效化解AI時代的“存儲焦慮”。隨著人工智能技術在全球范圍內(nèi)的飛速發(fā)展,算力固然是核心驅(qū)動力,但存儲問題卻日益成為制約大模型實際應用的關鍵短板。無論是在訓練階段對大規(guī)模數(shù)據(jù)的高效處理,還是在推理階段對KV Cache的頻繁訪問,傳統(tǒng)存儲架構都面臨著前所未有的挑戰(zhàn)。
針對這一情況,數(shù)據(jù)猿特別邀請兩位行業(yè)專家展開探討。西部數(shù)據(jù)與極道科技分別作為軟硬件領域的代表,圍繞六個核心議題進行了深研討論,這些議題涵蓋了AI智算存儲所面臨的技術瓶頸、協(xié)同優(yōu)化、降本增效、實戰(zhàn)落地、未來趨勢以及生態(tài)共建等方面。此次對話為AI智算新生態(tài)的發(fā)展提供了實踐路徑和發(fā)展參考。
議題一:大模型訓練“糧草”保衛(wèi)戰(zhàn),軟硬件協(xié)同破解高帶寬瓶頸
直播開始,主持人張艷飛拋出了核心問題:千億甚至萬億級參數(shù)的AI模型訓練,對存儲帶寬提出嚴苛要求,硬件與軟件層面分別面臨哪些“卡脖子”挑戰(zhàn)?
西部數(shù)據(jù)蘆浩表示,當前AI發(fā)展對存儲的實時性、及時性提出全新要求,模型訓練需存儲硬件具備微秒級響應速度與超高帶寬,而行業(yè)正面臨性能、容量、成本的三重考驗。機械硬盤雖憑借高容量、低成本優(yōu)勢主導AI數(shù)據(jù)中心,但讀寫速度、延遲等指標與固態(tài)硬盤差距明顯,在高性能場景中競爭力下滑。
為破解困境,西部數(shù)據(jù)提出了三項創(chuàng)新技術:一是高帶寬硬盤技術,采用三階執(zhí)行器技術實現(xiàn)精準磁道定位,通過雙讀寫磁頭并行訪問,讀寫吞吐量達現(xiàn)有硬盤1.7倍,順序讀寫性能提升至2倍,未來有望實現(xiàn)8倍提升,該技術計劃在50TB級產(chǎn)品中引入,未來100TB產(chǎn)品可實現(xiàn)8軌道同時處理以提升I/O速率;二是雙樞軸技術,通過雙獨立執(zhí)行器并行操作,結合算法優(yōu)化合并IO,帶寬可提升2倍,未來將實現(xiàn)4倍突破;三是HAMR熱輔助磁記錄技術,借助磁頭上激光二極管瞬時加熱碟片磁道使磁粒位磁性反轉,從而實現(xiàn)數(shù)據(jù)穩(wěn)定寫入,助力大容量硬盤研發(fā)。蘆浩透露,西部數(shù)據(jù)預計2027年推出60TB硬盤。
![]()
極道科技張京城從存儲系統(tǒng)視角補充道,西部數(shù)據(jù)的高性能硬盤是基礎,極道科技則聚焦端到端優(yōu)化,核心是消除應用到硬盤的通信瓶頸,充分釋放硬件效能。他強調(diào),可靠性是存儲系統(tǒng)的核心,需先保障數(shù)據(jù)不丟失,再通過差異化適配優(yōu)化性能、控制成本。極道科技通過自主研發(fā)的統(tǒng)一調(diào)度引擎,實現(xiàn)“按需加載、智能預取”,與西部數(shù)據(jù)硬件形成協(xié)同,緩解存算瓶頸。
議題二:KV Cache優(yōu)化,軟硬件“快上加快”賦能AI推理
探討完訓練瓶頸后,張艷飛聚焦AI推理場景提問:“KV Cache技術對低延遲要求極高,西部數(shù)據(jù)EBOF與極道軟件如何實現(xiàn)‘快上加快’?”
蘆浩表示,西部數(shù)據(jù)OpenFlex Data24 EBOF盤框天生適配KV Cache特性,為AI推理提供高并發(fā)、低延遲、大容量硬件支撐,可滿足TB級上下文、PB級存儲需求,解決GPU顯存不足、I/O瓶頸等痛點。其采用NVMe SSD搭配100G RoCE網(wǎng)絡,通過NVMe over Fabric架構實現(xiàn)存算直連,屬于Diskless架構創(chuàng)新實踐;雙控架構,控制內(nèi)部采用PCIe 4.0標準硬件架構,支持多種無損網(wǎng)絡協(xié)議,無性能瓶頸。
實測數(shù)據(jù)顯示,EBOF配置閃迪SN655 NVMe SSD時,12臺服務器壓測下,隨機IOPS達2700萬,順序讀帶寬135GB/s、寫帶寬近90GB/s,單盤隨機讀延遲僅96微秒。該產(chǎn)品支持全局共享、近計算節(jié)點、分層三種部署方式,可彈性擴展,通過RDMA直連與GPU Direct軟件實現(xiàn)存算協(xié)同,為極道軟件提供堅實支撐。據(jù)悉,OpenFlex Data24系列EBOF最大容量可達1474TB,順序讀性能最高達129.34GB/s,隨機讀最高可達29.41M IOPS。
張京城表示,AI 推理核心訴求是低延遲。極道科技采用 “QA Cache 存儲 + 智能網(wǎng)關” 組合方案,通過架構級協(xié)同優(yōu)化,實現(xiàn)推理性能大幅提升。智能網(wǎng)關可智能調(diào)度算力資源、追蹤 KV Cache 分布,最大化緩存命中效率;QA Cache 采用開放架構,實現(xiàn)多層次智能緩存,通過零拷貝讀寫進一步提升性能。該方案兼容主流推理引擎與國產(chǎn)算力卡,具備企業(yè)級高可用性,可有效降低 token 生成延遲、優(yōu)化使用成本。
議題三:降本增效,多模態(tài)時代的存儲最優(yōu)解
針對AI多模態(tài)時代的海量數(shù)據(jù)存儲難題,張艷飛問道:“面對視頻、三維數(shù)據(jù)等百倍于文字的數(shù)據(jù)吞吐量,如何構建‘既能打又省錢’的存儲系統(tǒng)?”
對此,蘆浩表示,智慧城市、自動駕駛等場景數(shù)據(jù)已達PB級甚至EB級,需軟硬件協(xié)同構建高效存儲架構。西部數(shù)據(jù)聚焦硬件創(chuàng)新,通過分層硬盤產(chǎn)品與高密磁盤擴展柜組合降本增效。其企業(yè)級硬盤家族涵蓋26TB-32TB SMR硬盤、22TB-26TB CMR硬盤等多規(guī)格,22TB以上產(chǎn)品搭載OptiNAND技術,12TB以上采用氦氣封裝,MTBF達250萬小時。
針對海量存儲場景,西部數(shù)據(jù)推出60盤、102盤兩種磁盤擴展柜,多家大廠采用JBOD磁盤擴展柜方案。舉例規(guī)劃50PB存儲需求下,“服務器+60盤擴展柜”需40個節(jié)點,采購成本、機柜數(shù)量下降近一半;102盤擴展柜僅需26個節(jié)點,采購成本下降超一半,5年運營成本與硬盤故障率大幅降低,幫助客戶降低整體TCO。西部數(shù)據(jù)磁盤擴展柜具有振動隔離技術、冷溫區(qū)技術兩項專利技術,支持遠程集中管理,簡化運維。
張京城表示,極道科技通過軟件自適應優(yōu)化實現(xiàn)了性能與成本的精準平衡。具體而言,我們先深度拆解各類應用的實際需求,精準區(qū)分不同場景的性能差異,采用“HDD+SSD”混合介質(zhì)架構進行場景化適配,讓存儲資源與業(yè)務需求高度匹配;同時基于數(shù)據(jù)熱度實現(xiàn)存儲介質(zhì)的智能動態(tài)調(diào)度,讓數(shù)據(jù)流轉更高效,從底層規(guī)避IO擁堵問題;更推出“AI Pipeline”解決方案,實現(xiàn)存儲調(diào)度全流程自動化,大幅簡化操作門檻的同時,高效應對多模態(tài)數(shù)據(jù)的爆發(fā)式增長,從軟件層面徹底打通數(shù)據(jù)讀寫鏈路,讓IO不再成為制約業(yè)務發(fā)展的存儲瓶頸。
![]()
議題四:實戰(zhàn)派分享——醫(yī)學科研領域的AI存儲落地實踐
圍繞技術落地,張艷飛邀請嘉賓分享醫(yī)學科研、前沿科創(chuàng)領域的實戰(zhàn)案例,并詢問Agent及“小龍蝦”智能體對行業(yè)的影響。
張京城表示,極道科技與西部數(shù)據(jù)在醫(yī)學科研領域落地多個AI存儲實踐案例,核心采用自研ALAMO分布式并行存儲系統(tǒng)搭配西部數(shù)據(jù)高性能硬件,精準適配各類科研與醫(yī)療機構的業(yè)務需求。該系統(tǒng)兼具高性能、高可靠與高可擴展性,可同時承載AI訓練推理、基因測序分析等多元業(yè)務,兼容英偉達及國產(chǎn)GPU,支持X86與ARM架構,保障醫(yī)療科研核心數(shù)據(jù)高效流轉與高性能存取。
![]()
針對智能體,張京城認為,當前其主要應用于個人場景,企業(yè)級應用仍面臨安全可靠性不足、數(shù)據(jù)增長壓力大等挑戰(zhàn),未來將推動AI與業(yè)務深度耦合,增加存儲需求多樣性。
蘆浩認同這一觀點,他表示,智能體進入企業(yè)場景需提升安全可靠性,西部數(shù)據(jù)通過高穩(wěn)定硬件與專利技術,降低故障概率,為企業(yè)級AI場景筑牢硬件根基,助力智能體落地。
議題五:存算協(xié)同,下一個五年AI架構的核心趨勢
聚焦AI架構未來發(fā)展,主持人問道:“存算分離時代數(shù)據(jù)搬運成本過高,存儲系統(tǒng)是否需具備更強‘計算感知’能力?”
張京城表示,下一個五年AI架構核心趨勢是AI與業(yè)務高度耦合,存算協(xié)同是關鍵,未來需構建AI專屬操作系統(tǒng)。該系統(tǒng)需包含存儲、非結構化數(shù)據(jù)管理、融合計算三大模塊,通過協(xié)同優(yōu)化降低數(shù)據(jù)搬運成本、提升算力利用率,實現(xiàn)數(shù)據(jù)價值轉化。他認為,AI技術迭代極快,未來大模型能力將深度融入各類應用,重構行業(yè)形態(tài)。
蘆浩補充道,存算協(xié)同核心是最小化IO損耗、減少數(shù)據(jù)搬運,并非物理設備融合,而是通過軟件實現(xiàn)邏輯一體化。西部數(shù)據(jù)通過高速以太網(wǎng)與并行NVMe閃存組合,提供硬件支撐。其與極道科技合作的存算協(xié)同案例顯示,開啟GPU Direct Storage功能后,帶寬從20多GB/s提升至93GB/s,解決三維仿真卡頓問題,驗證了方案有效性。兩位嘉賓一致認為,存算協(xié)同將成為未來五年核心演進方向,需軟硬件深度協(xié)同。
議題六:共建生態(tài),“存、算、用”閉環(huán)助力行業(yè)發(fā)展
作為直播最后一個議題,主持人詢問兩家企業(yè)如何打破“黑盒”協(xié)同,構建“存、算、用”閉環(huán)生態(tài)。
蘆浩表示,西部數(shù)據(jù)正從單一硬件供應商向全線解決方案服務商轉型,在科羅拉多普林斯組建開放兼容性實驗室(OCCL),推動行業(yè)互操作性。其已形成完善生態(tài)矩陣,軟件端與極道科技、英偉達等深度合作,硬件端聯(lián)動閃迪等廠商,未來將加大研發(fā),推出AI全生命周期配套解決方案。
張京城表示,AI將成為生態(tài)協(xié)同的核心工具,借助AI編程可大幅縮短廠商對接周期、降低成本。他強調(diào),數(shù)據(jù)安全與隱私保護是生態(tài)協(xié)同的前提,未來AI將同時作為服務對象與協(xié)同工具,推動“存、算、用”閉環(huán)完善,擴大AI智算“朋友圈”。
此次直播中,西部數(shù)據(jù)與極道科技從硬件創(chuàng)新、軟件優(yōu)化、案例落地、趨勢預判等多維度,展現(xiàn)了軟硬件協(xié)同破解AI存儲瓶頸的路徑,為行業(yè)高質(zhì)量發(fā)展提供了寶貴經(jīng)驗。未來,隨著存算協(xié)同趨勢深化與生態(tài)體系完善,AI存儲將更好支撐多領域智能化落地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.