![]()
編者按:最近在南京大學召開的 Nature 原子制造國際會議上,結識了本科畢業于南京大學、盡情在北美游歷了一番后加入上海交大機械與動力工程學院的帥哥教授劉智崑。智崑給人總是一幅激情四射、敏銳激越的style,表達的觀點新潮而又接地氣。他大概是那種致力于變革性地強化學術界和工業界之間vdW聯接界面的后生代!
1.引言
人工智能 (Artificial Intelligence, AI) 作為一種特殊的產品與商品,人類對它的需求具有獨特性。這不僅表現在人類對更高智能的渴望是無止境的,且這種需求是極度苛刻的。人類身處相互競爭的社會中,每個人都希望擁有最強的智能工具,哪怕只是比其它工具強那么一點點。
更特別的是,人工智能 AI 具有一種“自催化”的能力。這是說,作為工具,它能加速自身的迭代進化,很有一些人類大腦的那般模樣。這種迭代,表現為優勢智能體呈現非線性爆發式發展,并快速淘汰稍顯落后的智能體。因此,人們對更強人工智能的需求是永不知足的。
然而,是什么在支撐這種爆發式增長呢?也即是說,在支撐與供給一側,是什么限制了人們獲得越來越好的人工智能呢?
其中一個重要的物理瓶頸,就是下面要介紹的“存儲墻困境”。
讀者很快就能看到,要掙脫這一困境,高端制造業,具體而言就是圍繞 AI 芯片系統的高端制造業 (統稱芯片制造),需要新的制造模式、新的賽道!
2. AI模型與存儲墻困境
2.1. AI模型面臨的困境
主流的 AI 大語言模型 (AI large language models, LLMs),都是基于 Transformer 架構。該架構的運作方式,決定了其對硬件資源的特殊需求。觀察 Transformer 的結構,如圖1所示,我們可以看到,它主要由編碼器(Encoder) 和解碼器 (Decoder) 組成。其核心組件包括:(a) 多頭自注意力機制(Multi-Head Attention) 和 (b) 前饋神經網絡 (Feed-Forward Networks) [1]。在數學本質上,這些組件的運行,依賴于大規模的矩陣乘法運算。當模型進行推理或訓練時,每一個輸入的 Token,都需要被轉換成高維向量,并與模型中數以千億計的參數權重進行復雜的矩陣運算。特別是這個“注意力機制”,它要求模型在處理每一個詞時,都要回顧上下文中的其他詞,以計算相關性 (即 Query, Key, Value 的交互)。這意味著,為了生成哪怕一個簡單的字符,硬件都需要在極短的時間內訪問并搬運海量的參數數據。
這種架構,在算法層面解決了長距離依賴的問題,賦予了 AI 理解上下文的能力。但是,為了這兩個目的而付出的代價是巨大的:它將計算密集型任務,轉化為極度依賴內存帶寬的數據密集型任務。這是典型的“芝麻西瓜”之矛盾。
![]()
圖 1. Transformer 架構,作為一種基于自注意力機制的深度神經網絡。它是目前大語言模型的通用底層架構 [1]。
這種對資源的消耗,使得 Transformer 模型始終處于一種“饑渴”狀態。很多環節實際上是在白白“刷新”而耗費算力,以等待數據傳輸完成。
不過,AI 學界那些既極度勤奮又絕頂聰明的人們,開始試圖尋找新途徑。
隨著 Scaling Law 生效,這些 AI 人們發現,模型越大、參數越多,則智能涌現 (intelligence emergence) 的效果越好。這,直接導致了模型參數量從早期的幾億,爆炸式地增長至萬億級別。而這個所謂的早期或晚期,無非是幾年時間而已。對于存儲容量而言,必須有足夠大的顯存,來一次性地裝載這些龐大的權重矩陣。否則,模型根本無法運行。
更為關鍵的,是帶寬。尤其是在生成式任務 (如GPT系列) 中,模型是自回歸的,即每次生成一個新詞都需要重新調用整個模型的權重進行計算。從這個意義上,系統似乎并不“智能”呢,至少不如自我感覺上的人腦智能^_^。得益于 Tensor Core 等專用計算單元的飛速發展,現代硬件在處理大規模算術運算時,速度已顯著提升。許多計算任務,僅需寥寥數個時鐘周期即可完成。然而,如果內存帶寬不足,系統運行就猶如用一根細的吸管去吸干大海,無論 GPU 的計算核心 Tensor Core 有多快,它們都會因為等待數據從內存傳輸過來而處于空閑狀態。正如阿姆達爾定律 (一個關于提升程序運行速度的定量公式) 所述:系統的整體速度,不再取決于計算單元有多快,而是受限于最慢的那個環節——也就是內存數據的傳輸速度。
![]()
圖 2. 硬件的峰值算力增長,顯著快于內存帶寬的增長。如此,形成了算力與帶寬之間巨大的“剪刀差”[3]。
2.2. 所謂“存儲墻”
如此,就引出了著名的“存儲墻”(Memory Wall) 危機。這一概念,最早在 1995 年由 Wulf 和 McKee 提出[2],如今已成為制約 AI 發展的核心痛點。
依據 Gholami 等人的研究數據[3],如圖 2 所示。在過去的二十年里,服務器硬件的峰值算力 (floating point operations per second, FLOPS),以每兩年約 3 倍的速度狂飆,累計增長了驚人的 60,000 倍。相比之下,動態隨機存儲器 (dynamic random access memory, DRAM) 的內存帶寬增長,卻步履蹣跚,每兩年僅增長 1.6 倍,同期總增長約 100 倍。而互連帶寬的增長,更為緩慢,約30倍,正如老牛拉磨,而旁邊卻是呼嘯而過的京滬高鐵。
這種算力與帶寬之間巨大的“剪刀差”,導致極度不平衡的系統瓶頸。更為嚴峻的是,AI 模型的需求增長速度,遠超硬件摩爾定律。Transformer模型的訓練算力需求,以每兩年 750 倍的速度爆炸式增長,模型參數量也以每兩年 410 倍的速度擴張。摩爾定律所預言的、單 GPU 內存容量的增長,卻僅為每兩年 2 倍左右。事實上,這些年,摩爾定律也不準了,實際進展已經落后于摩爾定律的預言。
這種供需關系的極度錯配,使得“存儲墻”問題在大模型時代被急劇放大。再說一遍,對于依賴自回歸生成機制的 Decoder 模型 (如GPT系列),其算術強度往往較低,意味著每次微小的計算都需要伴隨大量的數據搬運。這種架構上的錯位,導致了嚴重的資源浪費。最新的統計數據[4] 使得問題更為嚴峻:在當下的傳統架構中,高性能處理器甚至可能有超過 60 % 的時間處于等待數據的“空轉”狀態,以等待那數據搬運過程。更糟糕的是,數據搬運不僅耗時,還極其耗能:將數據從內存移動到計算單元的能耗,往往比執行浮點運算本身的能耗高出“幾個數量級”。
這種因存儲系統無法匹配處理器數據吞吐需求而導致的性能瓶頸,不僅限制了計算速度,更成為制約當前 AI 大語言模型能效比和規模拓展的關鍵物理障礙。
2.3. HBM 的極限拉扯
為克服這一困難,AI 相關的學界、業界,開始嘗試從架構和封裝技術上尋找突破口。其中最核心的解決方案,便是高帶寬內存 (high bandwidth memory, HBM) 技術。HBM 的設計初衷,是為解決傳統 DDR 內存 (double data rate memory) 帶寬不足的問題。它通過硅通孔(through silicon vias packaging, TSV) 技術,將多個 DDR 芯片垂直堆疊在一起,如圖 3 所示,從而在極小的物理空間內實現巨大的存儲容量和帶寬。與傳統的 GDDR (graphics double data rate) 顯存相比,HBM 采用了極寬的接口設計(通常為 1024 位)。雖然單引腳的時鐘頻率較低,但通過并行傳輸海量數據,系統實現了極高的總帶寬。
這種架構,不僅顯著提升了數據吞吐量,還通過降低工作電壓和縮短信號傳輸距離,有效提高了能效比,使其成為高性能計算和 AI 加速器的核心組件。
![]()
圖 3. 淺藍色部分就是高帶寬內存(HBM) [5]。
為進一步滿足未來萬億參數模型訓練與推理對極致性能的渴望,HBM 技術正經歷著從架構到封裝工藝的深刻變革,旨在突破現有的帶寬與容量[6]。如下所列,乃筆者了解到的幾個層次之挑戰:
(1) 目前的 HBM3E (美光Micron公司為 AI 研發的第三代專用高端 HBM),已能實現驚人的性能。單顆芯片帶寬超過1.18 TB/s,相較于前代提升顯著,且能在8層堆疊下提供 24 GB 容量、或在 12 層堆疊下實現 36 GB 的超大容量。
(2) 下一代 HBM4 (第四代 HBM),則計劃引入更為激進的變革。其接口位寬,預計將從目前的 1024 位翻倍至 2048 位,從而在降低單引腳頻率壓力的同時,將總帶寬推升至 1.65 TB/s、甚至 2 TB/s 以上。
(3) 封裝技術,則計劃從微凸塊(Micro-bump) 向混合鍵合(Hybrid Bonding) 跨越。傳統的微凸塊技術,在處理更小間距 (Pitch) 和更高層數時,面臨電阻升高和散熱困難的物理局限。而混合鍵合技術,通過銅-銅直接連接,消除了凸塊間的微小縫隙,不僅大幅降低垂直互連的電阻和寄生電容,還有效減小了芯片的堆疊高度。這些改進,使得在嚴格的封裝厚度限制 (如 720 μm) 下,可以實現 16 層、甚至更高的 DRAM 晶粒堆疊,從而使得單顆HBM 容量有望達到 48 GB。
(4) 最后,為應對隨之而來的功耗挑戰,未來的 HBM 基底裸片,將采用先進的邏輯工藝制造。這一技術,能將核心電壓從 1.1 V 降低至 0.8 V 以下,從而抵消帶寬增加帶來的功耗上升,并顯著改善密集堆疊帶來的散熱問題。
然而,隨著 HBM 堆疊層數邁向 16 層以上,硅通孔 TSV 技術在晶圓減薄良率及穩定性上面臨物理極限。在此背景下,單片 3D DRAM (Monolithic 3D DRAM) 作為一種顛覆性技術路徑,應運而生。它一改傳統 DRAM 單純依賴平面特征尺寸微縮的發展路徑,借鑒 3D NAND 閃存的成功理念,轉向垂直方向維度擴展:在同一片晶圓上,連續制造多層存儲單元——概念上簡單粗暴,制造上崎嶇艱難!
這一路徑,與 HBM 存在本質的區別。HBM 主要是一種系統級封裝技術。它依靠微凸塊和硅通孔 (TSV) 技術,將多個獨立的、已制造完成的 2D DRAM 裸片進行物理堆疊。這一堆疊,受限于TSV 微米級尺寸限制和封裝總高度限制。而單片 3D DRAM,則是晶體管級的工藝集成。其中層與層之間的互連,采用光刻定義的納米級通孔,徹底摒棄了龐大的TSV 和復雜的鍵合工藝,從而實現極高的垂直互連密度和更優的寄生參數控制。讀者不妨稍微去了解一下這些變革進程,便能感覺到其中巨大的潛力!
![]()
圖 4. 單片 3D DRAM (Monolithic 3D DRAM)。(a) 垂直字線;(b) 垂直位線[7]。
在具體的技術實現方案中,水平1T1C (one-transistor, one-capacitor) 架構被寄予厚望。如圖 4 所示,通過垂直字線 (vertical wordline, VWL) 或位線 (vertical bitline, VBL) 的微觀配置,該架構在極小空間內實現了高密度存儲。據文獻[7] 論述,以128 層堆疊為例,VWL 和 VBL 配置的存儲密度分別達 1.3 GB/mm2 和 1.05 GB/mm2,較先進的 1b 節點 2D DRAM (約 0.455 GB/mm2) 提升約 2.3 至 2.8 倍。這種設計,不僅打破了傳統平面微縮的物理瓶頸,還通過 CUA (computer use agent) 異構集成技術,將邏輯電路置于存儲陣列下方,大幅縮短數據路徑。相關模擬讀寫能耗僅為 3.37 - 3.54 pJ/bit,令人印象深刻。基于該文作者的假設性設計與模擬推導顯示,在 Llama2-7B [a transformer-based language model developed by Meta with 7 billion parameters, trained on 2 trillion tokens with a 4,096-token context length] 訓練任務中,這種基于 H1T1C 的 AI 加速器較基準系統,可實現超 2 倍、甚至近 2.5 倍的吞吐量提升。這一勢頭,為未來突破“內存墻”和顯存容量瓶頸,提供了一條革命性的硬件演進路徑。
這種深刻變革,必定且已經給當下芯片制造技術帶來難以逾越的技術壁壘。按照那些致力于在芯片產業摸爬滾打的人們之性情,尋求新的制造業舉措,范式也好、賽道也罷,只管向前!
其中之一大一點即燃的賽道,就是“原子級制造”。本公眾號號主Ising老師,最近才寫過一篇科普文字《》,其中亦從不同視角提到這一主題。
本文不打算將原子級制造渲染個遍,只是針對 AI 的呼喚,摘取兩段“滄海桑田”小片段,放在這里給讀者茶余飯后觀摩、把玩。
3.原子制造之混合鍵合
第一段小片段,即混合鍵合 (hybrid bonding)。
上文論及 HBM 封裝技術時,已提及混合鍵合這一概念。混合鍵合是一種革命性的無凸塊 (Bumpless) 三維集成互連技術。它摒棄了傳統的焊料介質,直接利用介質層之間的分子引力來實現晶圓或芯片間的垂直堆疊。而電極間的連接,則借助銅金屬間的原子擴散來實現。此所謂“混合”之鍵合!
該技術的核心,在于同時形成兩種界面的鍵合:
(1) 一是介質層與介質層之間的鍵合。主要在室溫下通過范德華力或氫鍵形成,以提供機械支撐和電氣隔離。利用極度原子級光滑的拋光平面,一些研發單位可以實現大晶圓級的介質鍵合。
(2) 二是作為電極的銅與銅之間的金屬鍵合。借助后續熱退火工藝,促使銅原子擴散融合,實現高效的電信號傳輸,如圖 5 所示。
這種獨特的“混合”連接方式,極大地縮短了互連路徑,降低了電阻和電感寄生效應,并使得互連密度能突破傳統封裝的極限,成為高性能計算和異構集成的關鍵賦能技術。
![]()
圖 5. 混合鍵合過程,包括了介質層與介質層之間的鍵合、銅- 銅金屬的鍵合[5]。
3.1. 精度、精度
在這一工藝中,化學機械拋光 (chemical mechanical polishing, CMP),是至關重要的一環。界面原子鍵合,不僅需要實現表面的全局平坦化,還必須精確控制銅焊盤相對于介質表面的凹陷以及整體的表面粗糙度。理想的混合鍵合界面,要求介質表面極其平滑,而銅焊盤則通常需要微小的凹陷或略微的突出,以便在后續的熱退火過程中利用銅的熱膨脹特性實現緊密的金屬鍵合。
這是一對矛盾:既要平滑,又要凹陷,還都要原子級!這種對微觀形貌的極致控制,直接決定了鍵合的良率和電氣性能,構成了混合鍵合工藝的核心挑戰。
在此背景下,隨著對 I/O 密度的需求呈指數級增長,互連間距 (pitch size) 正在從微米級向亞微米級迅速微縮。這一發展,對銅凹陷的控制提出了更為嚴苛的“原子級”要求。相關研究數據及圖表顯示,接觸面積與間距及凹陷深度之間,存在著緊密的制約關系。以當前“混合鍵合”的一個典型標準為例:當間距為5 微米時,通常可容忍約 5 nm 的銅凹陷。此時,工藝窗口相對較寬。然而,當間距進一步縮小,銅焊盤體積隨之減小,熱膨脹帶來的突起量將不足以填補較大的凹陷。由簡單的計算可推估,當間距縮小 10 倍時,為保證足夠的接觸面積,銅的凹陷深度須減小約 1 個數量級。這意味著在亞微米間距下,銅凹陷必須控制在很小的范圍內(例如 2 nm 以內),甚至是接近原子級的高度差。
為應對這一挑戰,制造界在混合鍵合的原子級制造方面,已取得很大進展。以相關研發機構 IMEC 為例 [8],其發展的2 μm 間距Die-to-Wafer (D2W) 鍵合工藝,展示了卓越的表面控制能力。即便在經歷了晶圓減薄和等離子切割等極具挑戰性的后續工藝步驟后,IMEC 依然能通過引入創新的無機表面保護層技術,成功避免銅表面的氧化和損傷,將銅凹陷穩定保持在約 2 nm 水平。這一數值,與初始 CMP 工藝得到的 1.5 nm 相當,證明通過先進的工藝整合,可以在復雜的制造流程中維持鍵合表面的原子級質量,展示了亞微米級互連的可能。
除了對銅焊盤形貌的精準把控,表面粗糙度的控制同樣是決定鍵合質量的關鍵因素,且已達到原子級水平。最新的綜述與實驗數據指出[9],為確保無孔洞的高質量鍵合,絕緣介質層(如 SiO2 或 SiCN) 的表面粗糙度,通常需要嚴格限制在 0.5 nm 以下。在一些先進制程探索中,通過優化 CMP 工藝,甚至可實現小于 0.2 nm 至 0.3 nm 的表面粗糙度。例如,針對 SiCN 介質層的 CMP 技術,在工藝優化后,得到的樣品其表面粗糙度可穩定在 0.4 nm左右。這種極致的平滑度,對于防止界面空洞的形成、確保氣密性、提高鍵合強度,至關重要。而這種極致的平滑度,令人驚嘆不已,畢竟一個原子也就 0.2 nm 的大小,標志著半導體制造已全面進入原子級精準把控表面形貌時代。
3.2. 量測、量測
然而,面對這種逼近原子級制造精度的挑戰,傳統的量測手段已難以滿足大規模量產的需求。傳統的原子力顯微鏡 (atomic force microscopy, AFM) 雖然精度高,但掃描速度過慢,無法作為在線量測工具。另一方面,光學檢測手段,在垂直分辨率上又往往力不從心。
為解決這一瓶頸,Nearfield Instruments 推出的 QUADRA 系統,代表了未來的方向之一[10]。這是一種變革性的、高通量掃描探針量測系統。它創新性地采用了4 個微型AFM 探頭并行工作的架構,如圖 6 所示。這種設計,使得QUADRA 能夠在保持原子級分辨率的同時,成倍地提高檢測速度。實驗證明,這一技術在用于混合鍵合量測 Cu 凹陷和表面粗糙度時,能將量測速度提升到每小時 10 片晶圓片的水平。
這一效率,雖然還有些差強人意,但作為半導體技術發展催生原子級制造設備的一典型案例,依然具有顯示度。誠然,僅僅是 QUADRA 系統顯然是不夠的,適合原子級制造的表征技術,任重而道遠!
![]()
圖 6. Nearfield Instruments 的4 探頭 AFM 設備 QUADRA [10]。
4.原子制造之Monolithic 3D DRAM示例
第二段小片段,是存儲器制造。
原子級制造在 AI 芯片這一領域突飛猛進之前,預計須克服動態隨機存取存儲器 DRAM 技術向三維垂直堆疊架構演進所遭遇的巨大壁壘。事實上,原子級制造技術,的確也展示出不錯的勢頭,正成為實現下一代高密度存儲的一大核心驅動力。
以 Monolithic 3D DRAM 中電容器的集成制造為例。這一復雜過程,涉及了極為精密的 12 步工藝流程 [11],如圖 7 所示。
制造流程,始于 Si/SiGe 超晶格疊層的外延生長。隨后,通過對 SiGe 層的回蝕形成初始溝槽,并利用原子層沉積 (atomic-layer deposition, ALD) 填充 SiO2 作為支撐介質。緊接著,通過原子層蝕刻 (atomic-layer etching, ALE),回蝕 SiO2并在隨后的步驟中對 Si 層進行回蝕,從而為電極形成創造空間。在形成 TiN 接觸后,工藝進入更為精細的階段,包括 SiN 的 ALD 填充與 ALE 回蝕、SiO2 的再次 ALE 回蝕,以及 SiN 去除這關鍵一步。最終,在這一極度復雜的納米結構中,依次通過 ALD 技術沉積 High-k 介質層、TiN 電極層以及金屬鎢,完成電容器的構建。
整個流程包含了 6 次 ALD 沉積和 6 次各向同性選擇性蝕刻。每一步,都要求極高的精度,以確保垂直堆疊結構的完整性與電學性能。
以上制程步驟的關鍵,在于“保形性”與“選擇性”。這是 ALD 和 ALE 技術在 3D DRAM 制造中不可替代的原因。與此同時,隨著集成密度不斷攀升,器件結構內的空間越發狹小。越是這種極端的空間限制,就越需要依賴 ALD 和 ALE 技術。對此感興趣的讀者,可點擊御覽科普文《》,以作稍微詳細一些的了解。
![]()
圖 7. Monolithic 3D DRAM 中電容器制備的 12 步工藝流程 [11],整個流程包含了 6 次原子層沉積和 3 次原子層刻蝕。
與之相比,傳統的沉積與蝕刻技術,在面對 3D 集成所需的側向加工時,已逼近物理極限、難以為繼。此情此景,原子級制造技術不可以再“猶抱琵琶半遮面”,必須走到前臺開始“朗朗式”的 (piano) 演出了^_^。
原子級制造工藝的成敗,除了取決于技術架構外,也取決于基礎材料:即作為器件核心骨架的 Si/SiGe 超晶格結構質量與一致性。Si/SiGe 超晶格結構,是一種通過精細的外延生長工藝、在晶圓上交替堆疊 Si 與 SiGe 納米薄膜而形成的“千層蛋糕”式多層結構。它的核心作用是利用 SiGe 層作為“犧牲層”,在制造過程中將其選擇性腐蝕掏空,從而釋放出橫向懸空的Si 層作為導電通道。
依據關于 200 周期 Si/SiGe 超晶格生長的研究分析[12],在 Si 襯底上構筑總厚度達 8.9 微米的超多層結構,是一項極具挑戰性的工程。實驗數據揭示出至少如下幾點對工藝精度的嚴苛要求:
(1) 為保障最終器件性能,Si 溝道層的厚度必須被精確鎖定在 36.7 ± 2.1 nm 之間,其厚度標準差需控制在 0.77 nm 。
(2) 作為犧牲層的 SiGe 層厚度則需維持在約 8.8 nm。
(3) 在組分控制上,盡管目標 Ge 濃度為 20 %,實際生長中仍需將波動控制在 19.1 ± 1.7 % 范圍內。這種優于 1 % 的濃度均勻性,是確保后續高選擇比蝕刻工藝窗口的關鍵。
(4) 整個制造過程中的熱預算管理,亦至關重要。長時間在 675 °C 高溫生長,會誘發超晶格中 Ge 原子偏析,導致底部界面寬度展寬至約 4.05 nm (頂部為 3.77 nm )。
綜上所述,這種對超晶格生長過程中原子級偏差的極限控制,構成了后續 12 步復雜制造工藝得以實施的基石。
當然,Monolithic 3D DRAM 在尺寸和材料品質上要求如此高精,在立體結構搭建上要求如此紛繁復雜,其制造過程對量測技術提出的更高的、顛覆性挑戰,迫使工業界必須放棄傳統的表面計量思維。根據 ASML 的先進量測技術報告分析[13],傳統的 CD-SEM 和可見光光學量測,主要局限于表面成像。面對動輒數百層、厚度達數微米的 3D 堆疊結構,這些技術無法觸及深埋于體內的結構特征。例如,側向凹槽的深度或隱藏的空洞表征鑒定,就是棘手問題。這里,不僅僅是精度的提升,更是探測物理模式的根本轉變。
為了“看穿”這些不透明的復雜結構,整個芯片制造行業正在轉向高能物理手段:利用高著陸能量的掃描電子顯微鏡,通過背散射電子對材料原子序數的敏感性,實現深層內部結構(如金屬填充或空腔)的穿透式成像和量測,從而在不破壞樣品的前提下精準監控側向蝕刻的進程。同時,軟X 射線散射測量,作為一種新興技術,利用其極短的波長 (10 – 20 nm) 穿透性(也就是 X 射線對穿越深度的敏感性),能重建復雜的 3D 輪廓和層間對準誤差。
此外,針對晶圓鍵合界面,也必須采用對硅透明的紅外 (IR) 顯微術,甚至利用聲波 (scanning acoustic microscopy, SAM) 來檢測深處的微小缺陷。量測技術,已從單純的“表面拍照”,進化為對芯片內部進行“無損斷層掃描”般深度感知。
5.結語
作為這篇簡短而“匆忙”的短文結尾,筆者愿意和讀者們一起緬懷物理學家理查德·費曼。他六十多年前曾作出那句著名的預言“There's plenty of room at the bottom”,指出了微觀尺度下物理操控的無限可能。然而,與費曼那種以“技術可行性”為中心的視角不同,本文的鮮明特點在于,確立以“需求”為中心論述“原子級制造”的必然邏輯。
人類對“智能”永無止境的渴求,正推動著AI 大模型參數向萬億級狂奔。這種對算力與存力的極致貪婪,一方面可能讓一些讀者感覺是“傻大粗”式硬算,使得在傳統計算架構中已岌岌可危的“存儲墻”危機更為嚴峻;另一方面,為了延續智能的進化,半導體行業目前似乎又別無選擇,必須從二維平面微縮被迫轉向三維空間堆疊與原子尺度重構。無論是未來 HBM 的混合鍵合,還是單片 3D DRAM 的精密原子層沉積,都不是為了探索技術的無限可能,而是因為只有逼近底部的原子世界,才能承載人類對人工智能日益膨脹的野心。
在這樣的大趨勢下,當前產業界最急迫的需求,已不僅僅是制造工藝的突破,而是發展多種、不同能力的先進量測技術。原子級精度與復雜的 3D 深孔結構,給工業生產帶來了前所未有的良率挑戰。在實驗室里造出一顆芯片是一回事,在工廠里大規模、高良率地生產千萬顆芯片則完全是另一回事。很顯然,在生產流程中顯著增加量測的比重,用“火眼金睛”去透視那些深埋在多層堆疊下的原子級缺陷,將變成 AI 芯片制造難以繞過的萬水千山。前文提到的多探針 AFM 系統與高能電子束量測,代表著量測技術的范式轉變之初端。只有當具備穿透力的高通量量測技術與原子級制造工藝并駕齊驅,才能確保每一顆流向市場的 AI 芯片都經得起考驗,真正滿足智能時代對算力基座的龐大需求。
最后指出,本文描述可能多有夸張、不周之處,敬請讀者諒解。成熟芯片制造,就是大工程了,再來個極致算力的 AI 芯片制造,非極盡原子級制造之能事,大概難以承載。謹以此文,向“原子級制造”新賽道致敬!
6.參考文獻
[1] A. Vaswani et al., "Attention is all you need," in Advances in Neural Information Processing Systems (NIPS), pp. 5998–6008, 2017.
[2] W. A. Wulf and S. A. McKee, "Hitting the memory wall: Implications of the obvious," ACM SIGARCH Computer Architecture News, vol. 23, no. 1, pp. 20–24, 1995.
[3] A. Gholami et al., "AI and memory wall," IEEE Micro, vol. 44, no. 3, pp. 33–39, 2024.
[4] C. Wolters et al., "Memory is all you need: An overview of compute-in-memory architectures for accelerating large language model inference," arXiv preprint arXiv:2406.08413, 2024.
[5] C. Y. Lee et al., "3D integrated process and hybrid bonding of high bandwidth memory (HBM)," Electronic Materials Letters, vol. 21, no. 3, pp. 395–419, 2025.
[6] K. Kim and M. Park, "Present and future, challenges of high bandwidth memory (HBM)," in IEEE International Memory Workshop (IMW), Seoul, Korea, 2024.
[7] P. Hsu et al., "Monolithic 3D stackable DRAM," IEEE Nanotechnology Magazine, vol. 19, no. 2, pp. 7–16, 2025.
[8] Y. Lin et al., "2 μm pitch direct die-to-wafer hybrid bonding using surface protection during wafer thinning and die singulation," in IEEE Electronic Components and Technology Conference (ECTC), 2025.
[9] X. Li et al. “Mechanical planarization process in hybrid bonding technology,” ASME Journal of Electronic Packaging, vol.147, no.030801, pp. 1–16, 2025
[10] M. Van Reijzen et al., "Recent advancements in atomic force microscopy," in Proc. SPIE, vol. 11611, Art. no. 116112E, 2021.
[11] T. Lill and H. Singh, "Use of ALD and selective isotropic etch / ALE in the manufacturing of advanced logic and memory devices," presented at PPPL Summer School, 2025.
[12] X. Liu et al., "200 period Si/SiGe superlattice structure growth and characterization for vertical stacked DRAM," Appl. Phys. Lett., vol. 126, Art. no. 232101, 2025.
[13] E. De Poortere, "Advanced metrology for next generations of stacked devices and systems: Challenges and opportunities," in IEEE International Electron Devices Meeting (IEDM), 2024.
AI的呼喚
浪潮奔涌須強算
數海凝川賴記功
未有精工原子術
智能爭逐一場空
![]()
(1) 筆者劉智崑,任職于上海交通大學機械與動力工程學院和微納工程科學全國重點實驗室。課題組主頁見:https://me.sjtu.edu.cn/teacher_directory1/liuzhikun.html。
(2) 小文標題“原子級制造:AI大模型呼喚你”乃宣傳式的言辭,不是物理上嚴謹的說法。這里只是表達 AI 大模型及其產業在未來產業中的強勢地位預期,給原子級芯片制造提出了不斷加速、不斷溢出的嚴苛要求。原子級制造,不得不發。
(3) 文底和封面圖片均來自美劇 foundation《基地》的截圖。文底小詞寫 AI 對原子級制造的渴望!
本文轉載自《量子材料QuantumMaterials》微信公眾號
《物理》50年精選文章
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.