(本文編譯自Semiconductor Engineering)
在大眾媒體中,“人工智能”通常指運行在昂貴且高功耗數據中心的大型語言模型。然而,對于許多應用場景來說,在本地硬件上運行的小型模型則更為貼切。
自動駕駛汽車需要實時響應,避免數據傳輸延遲。醫療和工業應用通常依賴于無法與第三方共享的敏感數據。盡管邊緣人工智能應用速度更快、更安全,但它們的計算資源卻非常有限。它們無法擁有TB級的內存空間,也沒有近乎無限的電力供應。
對于數據中心來說,這些限制可能有些抽象,但卻對邊緣人工智能施加了嚴格的限制。在2025年IEEE國際存儲器研討會上的一篇特邀論文及其后續預印本中,蘇黎世聯邦理工學院計算機科學教授Onur Mutlu及其同事指出,在典型的移動工作負載中,數據在內存中的移動占總能耗的62%。內存無疑是占用硬件空間最多的組件,但內存延遲往往也是導致執行時間延長的主要因素。
多年來,器件縮放一直是降低功耗的關鍵,但現在卻使問題更加嚴重。Mutlu表示,規模龐大的DRAM穩定性較差,需要更頻繁的刷新周期。大型內存陣列的訪問難度也更大,因為帶寬的增長速度不如內存條本身的增長速度快。
內存計算和近內存計算提供了可能的解決方案。即使是商用的現成DRAM,只要軟件基礎設施支持,也可以執行原始的數據復制、初始化和按位邏輯運算。
結合了RRAM和鐵電體的混合解決方案
然而,DRAM刷新功耗的問題仍然存在。在神經網絡模型中,訓練和推理任務都會重復使用存儲的權重矩陣。然而,兩者的要求卻截然不同。
正如CEA-Leti的Michele Martemucci及其同事所解釋的,訓練任務涉及對權重矩陣進行多次小幅更新,使其逐漸收斂至穩定值。這類任務要求存儲器具備高寫入耐久性和存儲精確值的能力。相比之下,推理任務使用的是穩定不變的權重矩陣,但可能會將其多次應用于輸入數據,因此更適合采用具有高讀取耐久性的非易失性存儲器。無論是訓練還是推理,近內存計算都需要與標準CMOS邏輯工藝兼容的設備。
阻變存儲器(RRAM)結構簡單,依靠氧化層中形成的導電細絲來實現極高的讀取耐久性。通過精心設計的編程方案,它們可以存儲模擬值,從而減小存儲器陣列的大小。Martemucci表示,RRAM技術已經足夠成熟,可以在邊緣推理場景中進行商業部署。
遺憾的是,RRAM的寫入耐久性相對較低。隨著時間的推移,編程脈沖會模糊存儲值之間的電阻差異。設計人員通常使用傳統硬件訓練模型,然后將預先計算的權重加載到RRAM陣列中。然而,在許多應用中,邊緣設備需要具備“學習”能力。它要么需要根據用戶的特定需求進行訓練,要么需要修改模型以反映實際流程的變化。
與此同時,鐵電電容器支持超快速切換,且具備極高的寫入耐久性,能夠輕松承受訓練任務中頻繁的寫入操作。然而,盡管其存儲的值具有非易失性,但讀取操作卻具有破壞性。Martemucci表示,這類器件不適合長期存儲權重矩陣,也不適合需要頻繁讀取操作的推理任務。
將鐵電晶體管集成到CMOS工藝中非常復雜,需要高溫工藝和額外的掩模層。而鐵電電容器和隧道結則簡單得多,因此多個研究團隊開始嘗試結合阻變存儲器和鐵電結構。例如,在今年的VLSI技術研討會上,SK海力士的研究人員展示了一種兼具電阻和鐵電開關功能的混合鐵電隧道結(FTJ)。
在傳統的FTJ中,頂部和底部電極之間的隧道勢壘取決于鐵電極性。SK海力士的器件將鐵電鉿鋯氧化物(HZO)層夾在兩個電極之間,鉭層用作氧空位儲存器。鉭層附近的導電細絲在器件頂部提供歐姆導電,從而降低了鐵電隧道勢壘的有效厚度。這些器件實現了精確的模擬乘法累加運算,效率高達每瓦224.4萬億次運算(TOPS/W)。
在另一種混合方法中,Martemucci團隊將摻雜硅的HfO2電容器與鈦氧清除層整合到標準CMOS BEOL工藝中。這些器件最初表現為鐵電電容器,其中一些器件接收一次性“喚醒”脈沖以穩定鐵電響應。同時,電容器陣列的另一部分經過一次性“成型”工藝,形成由氧空位構成的導電細絲。鈦層充當氧空位儲存器,可防止細絲溶解。由此產生的憶阻器器件可以在高阻和低阻狀態之間切換。
![]()
圖1:金屬-鐵電-金屬堆疊結構可作為鐵電電容器(FeCAP)或憶阻器使用。
(圖源:CEA-Leti)
鐵電電容器用作二進制元件,存儲用于訓練計算的高精度權重。憶阻器存儲的模擬權重精度足以應對推理任務。在訓練過程中,憶阻器陣列每完成100個輸入步驟后更新一次,而鐵電陣列則持續更新。針對標準數字識別任務訓練該結構時,總寫入操作次數比憶阻器的耐久性上限低17倍,比鐵電電容器的耐久性上限低75倍,同時能耗比持續更新憶阻器陣列所需的能耗低38倍。
人工智能不僅僅是神經網絡
內存計算不僅可以提高傳統神經網絡計算的能效,還能促進其他建模方法的發展。例如,許多計算難度高的問題可以建模為伊辛模型,即一組連接的節點共同演化至最低能量狀態。現實世界中,這類問題可能涉及數千甚至數百萬個連接。
解決伊辛模型問題是量子計算最引人入勝的潛在應用之一。更傳統的方法是,在去年的IEEE電子設備會議上,德克薩斯大學研究員Tanvir Haider Pantha和他的同事們提出,在CMOS邏輯工藝的后端工藝(BEOL)中整合鐵電場效應晶體管(FeFET),構建三維結構。每個節點由四個交叉耦合的FeFET組成,可存儲一個帶符號的模擬值,該值映射到待解決問題的伊辛耦合矩陣。每個節點的輸出是其相鄰節點的輸入,從而在整個網絡中建立振蕩,最終達到穩定的最小能量配置。
![]()
圖2:四個交叉耦合雙柵FeFET構成相變納米振蕩器。
(圖源:IEDM)
內存計算需要新框架
傳統的CPU和GPU是通用器件。只需更改軟件即可應用于許多不同的問題。而近內存和內存加速器目前與其預期任務密不可分。伊辛模型求解器、點云網絡和圖像識別網絡將以不同的方式處理數據,需要不同的硬件設計。Mutlu表示,內存計算的下一步將需要能夠重新映射內存訪問以滿足特定問題要求的軟件框架。反過來,這些框架將需要能夠獨立于外部內存控制器、進行自我管理的內存硬件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.