一、引言:AI時代的“內存革命”
在生成式AI、超算和高性能GPU的浪潮中,有一種看似低調卻決定算力上限的關鍵部件——HBM(High Bandwidth Memory,高帶寬內存)。
如果把GPU比作一臺擁有數萬氣缸的超高性能引擎,那么HBM就是為它提供燃料的“供油系統”。
油供不上,再好的引擎也只能空轉。HBM的使命,就是讓數據以“洪流”的速度流入GPU核心,而不是被“滴灌”。
![]()
二、HBM是什么:不是“芯片”,而是“系統級接口標準”
許多人以為HBM是一種新的內存芯片,其實更準確地說,HBM是一種定義了“如何讓DRAM以極高帶寬互連”的接口與封裝技術規范。
它不是在單顆芯片上堆性能,而是在“堆疊”和“互連”上下功夫。
一個完整的HBM模塊通常由:
多層垂直堆疊的DRAM芯片(Die)(4層、8層、甚至12層);
內部貫穿每一層的TSV(Through-Silicon Via,硅通孔);
以及連接GPU與HBM的中介層(Interposer)共同組成。
HBM的核心思路是:讓數據在最短路徑內穿越最多的并行通道。
傳統GDDR的思路是“跑得快”(高頻),HBM的思路是“路更多”(寬位寬)。結果是:單位時間傳輸量呈數量級提升。
三、GPU與HBM的關系:算力與供給的“饑餓游戲” 1. GPU的“胃口”
GPU(圖形處理器)天生是“并行怪獸”。
一顆如NVIDIA H100的GPU擁有18,432個CUDA核心,相當于上萬個小計算單元同時吃數據。
但問題是,這些核心吃得太快。如果內存送數據的速度跟不上,GPU就會“餓著”——
這就是所謂的內存瓶頸(Memory Bottleneck)。
2. 帶寬的定義與瓶頸
內存帶寬(Memory Bandwidth)表示單位時間內內存可傳輸的數據量。
計算公式:
帶寬(GB/s) = [總線位寬(bit) × 有效傳輸速率(GT/s)] ÷ 8
HBM的革命性突破在于:
- 位寬極寬
:每堆HBM的總線可達1024位甚至2048位;
- 傳輸頻率高
:每秒傳輸速率可達6.4GT/s以上;
- 距離極短、損耗極低
:得益于中介層互連。
結果就是:
HBM3E帶寬 ≈ 1.2 TB/s GDDR6帶寬 ≈ 0.064 TB/s 也就是說,HBM的“供料速度”是GDDR的近20倍。3. 為什么AI必須用HBM?
AI訓練和推理(尤其是大型語言模型、圖像生成模型)涉及數百GB到數TB的數據流。
這些數據要在GPU與內存之間不停來回傳遞:
參數 → 激活值 → 梯度 → 更新。
如果帶寬不夠,GPU核心就像賽車堵在加油站門口——算力再強也沒法發揮。
HBM的高帶寬和低延遲正是為了解決這種“算力饑餓”。
四、HBM的結構:從“平面走線”到“垂直通道” 1. 3D堆疊(Stack)
傳統DRAM是平鋪在PCB上的,而HBM將多顆DRAM芯片垂直堆疊,通過微凸塊(Microbump)層層互連。
這就像把存儲單元從“平面社區”變成“摩天大樓”,在相同面積下,容量和通道密度成倍增加。
2. 硅通孔(TSV)
每一層DRAM芯片內部鉆出直徑僅5-10微米的通孔,填入銅或鎢等導電材料。
這些通孔就是信號、電源、地線的垂直“電梯井”。
它們實現:
- 最短互連路徑(僅50~100微米);
- 最高互連密度(數萬通道);
- 最低信號延遲與功耗。
換句話說,TSV讓“樓層之間的數據”以幾乎無延遲的方式直達。
這就是HBM得以實現“超寬總線位寬”的硬件根基。
3. 中介層(Interposer)
GPU與HBM堆棧并不是直接焊在PCB上,而是共同安裝在一塊中介層上。
中介層是一塊超高密度布線的硅基基板(或高端有機基板),線寬/線距可達1μm級。
它的作用:
承載GPU和HBM;
提供超密互連橋梁,在毫米級距離內連接數千I/O信號;
保證信號完整性、低延遲、低功耗。
你可以把中介層想象成一塊“高架橋系統”,
GPU與HBM之間通過成千上萬條“微型高速公路”直連,信號幾乎不繞路、不打彎。
五、HBM的演進:從1代到4代的“極限競速”
代別
典型帶寬(每堆)
數據速率
堆疊層數
狀態
HBM1
~128 GB/s
1 Gbps
4
已退役
HBM2
~256 GB/s
2 Gbps
8
主流
HBM2E
~460 GB/s
3.6 Gbps
8
AI訓練主力
HBM3
~819 GB/s
6.4 Gbps
12
高端AI應用
HBM3E
~1225 GB/s
9.2 Gbps
12
2024-2025量產
HBM4
>1500 GB/s
>12 Gbps
16(預期)
研發中
未來的HBM4正在朝著更高層數、更寬位寬、芯片直接集成(3D-SoIC)方向演進。
這意味著GPU與HBM的邊界將越來越模糊,甚至可能直接在硅片上“融合”。
![]()
六、技術挑戰:HBM不是“堆上去就能跑”
HBM帶來的不僅是性能飛躍,也是一系列新的制造挑戰:
- TSV可靠性與應力管理
TSV的機械應力可能引發微裂紋,導致芯片翹曲或失效。
工藝需精確控制通孔蝕刻、填充、熱循環匹配。
- 熱管理
多層堆疊意味著熱量更集中。HBM堆棧內部熱阻高,需要更高效的散熱通道與熱界面材料。
- 中介層制造復雜性與成本
硅中介層的布線精度極高,良率直接決定封裝成本。每增加一條信號線,成本幾乎線性上升。
- 測試與良率控制
多層堆疊帶來測試難度。任何一層失效都可能報廢整個堆棧,因此需要層級測試與Known Good Die (KGD) 策略。
七、總結:HBM,是AI算力的“隱形地基”
HBM的本質是——用三維堆疊和超密互連,把帶寬做成“面”而不是“線”。
它改變了內存與計算芯片之間的關系,從“獨立模塊”變成“緊密耦合系統”。
AI GPU、超級計算、數據中心,乃至未來的Chiplet體系,都以HBM為帶寬支撐的核心。
一句話總結:
GDDR讓GPU能跑,HBM讓GPU能“飛”。 它不是快一點的內存,而是徹底重塑了“數據流動的物理結構”。歡迎加入半導體學習社區,每天了解一點知識。
歡迎加入行業交流群,備注崗位+公司,請聯系老虎說芯
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.