![]()
2024年,全球數據中心花在存儲硬件上的錢超過800億美元。但麻省理工學院(MIT)的一組工程師發現,其中相當一部分是冤枉錢——因為現有技術只能逐個解決性能瓶頸,就像用三根手指去堵三個漏水孔。
他們搞了一套新系統,同時搞定三個變量。測試結果顯示,存儲設備處理速度比傳統方法快得多,硬件壽命也能延長。
數據中心的"隱形稅":性能波動
現代數據中心的存儲架構,本質上是個大型資源池。幾十上百塊硬盤或固態盤(SSD)通過網絡綁在一起,給成百上千個應用共享使用。
這個設計思路沒問題,但執行層面有個老毛病:每塊盤的實際表現并不穩定。有些盤今天快、明天慢,有些盤讀數據快、寫數據慢,還有些盤在特定任務上會突然卡死。
傳統調度系統只能應對單一變量。比如專門優化讀寫速度差異,卻忽略了設備老化帶來的波動;或者處理了設備間的性能不均,但對實時變化的負載束手無策。
MIT計算機科學與人工智能實驗室(CSAIL)的研究團隊算過一筆賬:因為這種"拆東墻補西墻"的調度方式,數據中心的存儲容量平均有30%-50%處于閑置狀態。不是沒空間,是不敢用——怕用了就崩。
項目負責人、MIT電氣工程與計算機科學系副教授吳佳俊(Jae-Won Jang,音譯)打了個比方:"這就像讓一支樂隊演出,但每個樂手的節奏都不穩。以前的指揮只能盯著一個人調,我們想讓指揮同時聽見所有人的問題。"
雙層架構:中央大腦+本地反射
新系統的核心是個兩層控制結構。
上層是中央控制器,負責"戰略決策"。它每隔幾百毫秒掃描一次全局狀態,決定哪些任務分配給哪些存儲設備。這個頻率不算快,但足夠捕捉工作負載的中長期趨勢。
下層是每個設備自帶的本地控制器,負責"戰術執行"。當某塊盤突然出現延遲飆升或吞吐量暴跌,本地控制器能在幾毫秒內把數據流切到備用路徑,不需要請示中央。
兩者的分工很明確:中央控制器優化整體效率,本地控制器兜底突發狀況。吳佳俊解釋:"中央層看的是'接下來30秒該讓誰干活',本地層處理的是'這毫秒的數據會不會丟'。"
這種設計借鑒了自動駕駛的分層邏輯。主控芯片規劃路線,而緊急剎車由獨立單元直接觸發——省掉了層層上報的時間損耗。
關鍵突破在于,兩層之間不是簡單的上下級關系。中央控制器會預測哪些設備可能出問題,提前給本地控制器"打預防針";本地控制器遇到反復出現的異常模式,也會反向更新中央層的決策模型。
三個變量,一套解法
具體來說,這套系統同時處理了哪三類性能波動?
第一類是設備異構性。數據中心里的存儲硬件從來不是統一采購的,新舊混用、品牌混雜是常態。有些盤用了三年,有些剛上架;有些是消費級SSD,有些是企業級NVMe。它們的基準性能可能差出5-10倍。
第二類是負載突發性。視頻流服務和銀行交易系統對存儲的需求完全不同。前者要連續大帶寬,后者要隨機小IO。更麻煩的是,同一套系統可能在上午處理日志歸檔(順序寫),下午突然迎來電商大促(隨機讀)。
第三類是設備老化衰減。SSD有寫入壽命,機械硬盤有機械磨損,它們的性能曲線不是線性的。一塊盤可能在80%健康度時還能滿速跑,到70%就斷崖式下跌。
傳統方案通常只針對其中一類做優化。比如用糾刪碼(Erasure Coding)解決設備異構,用緩存層緩解負載突發,用預測算法監控健康度。但三類問題互相糾纏時,單一手段會互相干擾。
MIT的系統把三類變量塞進同一個優化框架。中央控制器用強化學習模型持續訓練,本地控制器用輕量級規則引擎做實時響應。兩者共享狀態信息,但決策鏈條不耦合。
論文第一作者、MIT博士生李浩然(Haoran Li,音譯)說:"最難的部分不是讓兩層各自工作,而是讓它們'知道對方在干什么'又不互相拖慢。我們設計了一套壓縮過的狀態摘要機制,把通信開銷壓到了極限。"
實測:不挑硬件,即插即用
研究團隊在一個256節點的測試集群上驗證了這套系統。硬件配置故意做得"臟":混用三代不同型號的SSD,模擬三年跨度內的設備更新周期;工作負載則在視頻轉碼、數據庫查詢、AI訓練三種模式間隨機切換。
結果對比的是業界常用的Ceph存儲系統默認調度策略。Ceph是目前最主流的開源分布式存儲方案,被公有云廠商廣泛采用。
在吞吐量指標上,MIT系統比Ceph默認配置高出47%-89%,具體取決于負載混合比例。延遲方面,P99尾延遲(即最慢的1%請求)降低了62%。
更關鍵的是硬件利用率。測試集群的存儲容量從平均閑置41%降到了17%,相當于同樣業務規模下可以少買40%的物理設備。
吳佳俊強調了一個細節:這套系統不需要任何專用硬件。"有些優化方案要求你在每臺服務器上加FPGA或者智能網卡,成本攤下來不劃算。我們的控制器是純軟件實現,跑在現有CPU上就行。"
部署流程也被刻意簡化。管理員只需要在現有存儲集群上安裝一個輕量級代理,中央控制器可以跑在任意一臺管理節點。從啟動到全量生效,整個過程在測試環境中花了不到15分鐘。
開源與商業化的時間表
研究團隊已經在GitHub上開放了核心代碼,采用Apache 2.0許可證。但吳佳俊坦言,從學術原型到生產環境還有段距離。
"現在的版本能證明概念,但企業級功能比如多租戶隔離、細粒度權限、審計日志,這些都要補。"他說團隊正在和兩家云廠商談合作,其中一家是北美排名前五的公有云服務商。
商業化路徑有兩種可能:一是直接賣軟件授權,按管理容量計費;二是走開源+服務的模式,靠技術支持合同盈利。吳佳俊個人傾向后者,"存儲調度這個領域,封閉方案很難建立信任。客戶需要看到代碼才知道會不會鎖死在自己的架構里。"
論文共同作者、MIT教授阿爾溫德(Arvind)提醒了一個潛在障礙:云廠商的存量系統慣性。"他們現有的調度邏輯可能寫了幾十萬行代碼,替換成本不只是技術問題,還有組織層面的阻力。"
但市場壓力正在倒逼變革。2024年全球數據中心能耗占全社會用電量的3%-4%,存儲子系統貢獻了其中約25%。在碳中和承諾和電價上漲的雙重擠壓下,"少買硬件還能提性能"的賣點足夠尖銳。
一個未被公開的細節是,某頭部云廠商的內部測試顯示,類似思路的調度優化每年能節省數億美元的基礎設施支出。MIT團隊的方案如果驗證穩定,可能直接改寫行業基準。
這套系統會被主流云廠商快速采納,還是像無數學術項目一樣困在論文里?李浩然的回答很直接:"我們已經把最難的部分開源了。接下來六個月,看社區怎么投票。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.