公眾號記得加星標??,第一時間看推送不會錯過。
![]()
如果你想涉足DRAM和閃存市場,最好做好承受過山車般波動的準備。因為這些行業的繁榮與蕭條周期,真可謂驚心動魄。
正當GenAI市場在2022年11月迎來ChatGPT主流化的關鍵時刻時,此前近三年受新冠疫情推動的個人和數據中心基礎設施建設熱潮不僅沒有消退,而且隨著整個IT行業需求的萎縮,DRAM和閃存的價格也下跌了一半甚至更多。內存和閃存廠商遭受重創,庫存積壓嚴重。
如今推動 GenAI 繁榮發展的超大規模數據中心運營商、云構建商和模型構建商可能都希望自己有時光機,因為現在對 DRAM 和閃存的需求遠遠超過了供應,價格再次飆升至天價。
在DRAM方面,全球超過一半的服務器需要配備數百GB的HBM堆疊式內存,以滿足數百萬臺服務器的需求。為了制造八個高HBM3內存堆疊,每個最終能正常工作的堆疊都需要消耗三個DRAM芯片,因為堆疊過程中經常會出現問題,而且無法將廢棄堆疊中的內存拆解并重新利用。堆疊越高,獲得正常工作的堆疊就越困難,良率也越低,而且隨著每一代新的HBM的出現,其固有的良率也在不斷降低。因此,盡管HBM需求旺盛,但它會消耗大量的芯片,而這些芯片原本可以分配給高性能服務器DDR5內存,卻被閑置在內存制造廠中。
目前困擾IT行業的閃存短缺問題與DRAM短缺問題有所不同。與DRAM短缺類似,閃存代工廠——包括鎧俠(Kioxia)、美光科技(Micron Technology)、三星(Samsung)、閃迪(SanDisk,鎧俠的代工廠合作伙伴)、Solidigm以及長江存儲(YMTC,如果算上中國本土供應商的話)——的產能無法迅速提升。他們會根據市場情況調整生產,以追求利潤最大化。而問題的關鍵在于,市場需求遠遠超過了供應。
“你知道2023年情況非常糟糕,實際上是內存市場歷史上最嚴重的低迷期,”Solidigm產品和市場營銷主管Greg Matson告訴The Next Platform。當時,Solidigm容量最大的閃存盤容量分別為30TB和60TB。“2023年9月底,產品開始恢復出貨,然后在2024年第一季度,產品突然開始熱銷。與此同時,我們也在生產最大容量的閃存盤,我們當時認為這可能只占我們需求的一小部分。但事實證明,它迅速成為我們增長最快的需求之一。”
這對 Solidigm 及其在閃存芯片和閃存盤領域的同行來說,無疑是一個令人欣喜的困惑。毫無疑問,這些公司在 2024 年看到了閃存存儲收入的快速增長,這種增長勢頭一直持續到 2025 年,現在又延續到了 2026 年。過去兩年(2023 年底與 2025 年底相比),由于閃存盤的需求超過了供應,這些閃存制造商從中受益匪淺,價格上漲了 50% 到 70%。
是什么驅動了這種需求?答案是:用于英偉達所謂的“AI工廠”以及我們仍然稱之為“AI超級計算機”的分層存儲。(數據中心一直以來都是信息工廠。)雖然如今以千兆瓦為單位簽訂合同的AI超級計算機,其預算中存儲并非主導因素,但存儲——尤其是HBM、DRAM和閃存——對于AI超級計算機架構而言,其重要性不亞于原始的串行、向量和張量計算。
為了好玩,馬特森向我們講解了他最近用來向 Solidigm 高層管理人員解釋當前情況的數學方法。
英偉達AI工廠架構包含四層存儲,分別以字母G表示,個中緣由尚不明確,或許是因為英偉達宇宙中的一切都服務于GPU。G1層是GPU加速器封裝上的HBM內存,G2層是主機服務器上的DRAM內存。建議G2層的容量應為G1層的2到4倍,以便在AI處理大型上下文窗口時能夠吸收G1層的溢出數據。
閃存在接下來的兩個存儲層級中發揮作用。G3 存儲是節點級存儲,對于 Nvidia NVL72 機器或 AMD Helios 機架來說,它指的是機架級節點。G3 層用于存儲創建并定期進行檢查點維護的中間處理數據。檢查點維護至關重要,因為 AI 超級計算機的 GPU 和 XPU 之間需要同步通信,這意味著如果其中一個發生故障,則可能需要數天甚至數月的計算也會失敗。通過定期進行檢查點維護,可以將中間數據重新加載到 GPU 中,并在故障點之前重新啟動計算,而無需從頭開始 AI 訓練。
隨著 Vera-Rubin 平臺中的“Vera”VC100 CPU 和“Rubin”R200 GPU將于今年晚些時候推出,Nvidia 將推出一個新的 G3.5 層級,稱為推理上下文內存存儲,它基本上使用 BlueField-4 DPU 作為存儲控制器,并將其放置在節點/機架內部,以獲得更快的速度,并對數據進行一些本地處理。
在英偉達人工智能超級計算機架構中,G4 級存儲是指將對象和文件存儲在節點或機架級系統(實際上就是一個大型節點)外部的網絡存儲。VAST Data 對其架構進行了調整,使其能夠承擔 G3 級存儲的檢查點功能,這是一個有趣的架構選擇,可以為人工智能系統架構師節省一些成本。
我們認為英偉達架構應該包含一個基于超大容量硬盤的G5級存儲。這符合超大規模數據中心和云服務提供商的做法,他們目前購買了全球約95%的硬盤出貨量。據我們所知,英偉達參考架構中并沒有G5存儲層。
既然如此,我們來算算閃存的容量。對于一個使用英偉達“Grace”GC100 CPU和“Blackwell”B200或B300 GPU的1 Gbps系統,根據系統配置和散熱方式的不同,它可以支持50萬到60萬個GPU。Matson取了55萬作為平均值,這個數字看起來比較合理。英偉達建議每個GPU在節點中配備15 TB的G3閃存用于檢查點和其他功能,并為每個GPU配備30 TB的外部網絡存儲用于存儲海量數據。
計算一下,對于 1 吉瓦的安裝,需要 8.5 艾字節的內部閃存容量和 16.5 艾字節的網絡閃存容量,總容量為 25 艾字節。
在網上查閱了各大GPU和XPU制造商的估算和聲明后,我發現2023年大約出貨了300萬個計算引擎(這里指的是插槽),2024年大約出貨了700萬個,2025年大約出貨了1000萬個。以英偉達的標準為準,每個GPU/XPU配備45TB閃存,這意味著2023年這些AI超級計算機大約消耗了135EB的閃存,2024年大約消耗了315EB,2025年大約消耗了450EB。
這可是大量的閃存需求啊!而且到了2026年情況會更糟,因為需求會大幅增長,而供應增長卻十分緩慢,價格也會隨之上漲。閃存芯片和閃存盤制造商將會大賺一筆。
https://www.nextplatform.com/2026/02/17/ai-eats-the-world-and-most-of-its-flash-storage/
(來源:編譯自nextplatform)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4321期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.