![]()
隨著AI模型參數(shù)量的爆炸式增長以及對更高內存帶寬的迫切需求,高帶寬內存(HBM)正逐步演進為AI芯片架構中不可或缺的基石。從即將于2026年推出的HBM4,到2038年面向Exa級別AI系統(tǒng)的HBM8,一場存儲與封裝技術的深層革新正在加速進行。
![]()
HBM4:2026年的性能躍遷
HBM4預計將于2026年量產(chǎn),目標應用鎖定在AI加速器數(shù)據(jù)中心GPU。該標準將支持:
- 2048位接口寬度
- 8 Gbps 引腳速率
- 單堆棧高達 2 TB/s 帶寬
- 堆棧層數(shù):12 至 16 層
- 容量:36–48 GB / 堆棧
- 功耗:約 75 W
NVIDIA 即將推出的Rubin Ultra加速卡預計將首次搭載16個HBM4堆棧,內存容量翻倍至768 GB。而AMD Instinct MI500系列同樣將采用HBM4,目標是實現(xiàn)432 GB的高帶寬內存容量,以支持LLM和Transformer模型的高效運行。
技術發(fā)展趨勢圖譜
下圖展示了從HBM4到HBM8的核心參數(shù)變化,包括帶寬、容量與功耗三者之間的演進關系:
(見上圖)
HBM5 與 HBM6:通道倍增與封裝演化
? HBM5(2029)
- 保持 8 Gbps 引腳速度
- 通道數(shù)擴展至 4096 位
- 每堆棧吞吐量達4 TB/s
- 容量最高至80 GB
- 功耗上升至100 W
NVIDIA Feynman 系列預計將成為首款采用HBM5的AI加速器,其將400–500 GB HBM5集成于多芯片封裝(MCM)中,總功耗超過4400 W
? HBM6(2032)
- 引腳速率提升至16 Gbps
- 帶寬躍升至8 TB/s
- 堆棧層數(shù)提升至20層,容量達120 GB
- 引入銅-銅鍵合(Cu-Cu bonding)與浸入式冷卻技術以控制熱設計功耗(TDP)
銅銅鍵合與3D封裝的核心角色
從HBM4開始,傳統(tǒng)微凸點焊接正被無縫銅-銅鍵合逐步替代。這一技術具備以下優(yōu)勢:
- 更小互連間距(<5μm)
- 更高信號完整性與I/O密度
- 支持更高堆棧層數(shù)與功率密度
臺積電已在SoIC-X平臺中實現(xiàn)商用,SK hynix和美光也在HBM4/5封裝中大規(guī)模導入銅銅互連。
此外,配套封裝技術如CoWoS(臺積電)Foveros(Intel)3D Fabric(AMD)正持續(xù)演化,支持多達16個HBM堆棧與Chiplet異構集成。
HBM7與HBM8:通往Exa與Zetta級AI的階梯
- HB M7|2035|8192位|24Gbps|24TB/s|192GB|160W|萬億參數(shù)AI、類腦模擬系統(tǒng)
- HB M8|2038|16384位|32Gbps|64TB/s|240GB|180W|PB級存儲推理、數(shù)字孿生計算
NVIDIA預計將推出功耗高達15,360W的超高性能加速平臺,以適配HBM7堆棧帶來的數(shù)據(jù)洪流。
HBM-HBF架構:AI系統(tǒng)的下一跳
DRAM雖然帶寬高,但容量受限。面對超大規(guī)模模型訓練與實時推理的挑戰(zhàn),業(yè)界正在推動**HBM + HBF(高帶寬閃存)**的混合架構:
- 通過TSV和混合鍵合將NAND堆棧與DRAM層級配對
- 實現(xiàn)低延遲高速緩存與大容量非易失性存儲的協(xié)同
- 有望成為 AI Foundation Models(如GPT-6)等應用的關鍵架構基底
總結
從HBM4到HBM8,高帶寬內存不僅推動著AI加速器的持續(xù)躍遷,也重塑了整個芯片封裝與存儲架構的思路。銅銅鍵合、3D堆棧、混合架構……這些技術并非孤立演化,而是在性能、能效與集成密度的張力中交織前行。
未來十年,將是HBM主導的AI硬件時代。
免責聲明:本文系作者梳理,目的在于信息傳遞及分享。如涉及侵權,敬請聯(lián)系support@fsemi.tech。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.