人工智能系統性能限制會出現在不同的地方。一些工作負載的計算能力不足;而另一些工作負載則達到了功率上限;冷卻能力也會產生問題。在許多情況下,即使計算能力強大且模型得到了很好的優化,系統也會變慢。這種問題主要出現在硬件內部,在內存和計算之間移動數據時。
![]()
因此,如果人工智能的性能越來越受到芯片內數據移動速度的限制,那么改變硅本身的物理結構能否緩解這種壓力呢?今天的內存瓶頸是否是現代人工智能工作負載不可避免的成本?新型3D芯片能否提供解決方案?
斯坦福大學、卡內基梅隆大學、賓夕法尼亞大學和麻省理工學院的研究人員的一項新研究創造了一種新型的3D計算機芯片,該芯片垂直堆疊內存和計算元件,從而大大加快了數據傳輸。他們聲稱,“該原型已經比同類芯片好幾倍,未來的版本有望走得更遠。”
該團隊與半導體工程和制造代工廠SkyWater Technology合作,開發了一種單片3D芯片架構,該架構具有垂直的內存和邏輯,而不是橫跨平面。通過縮短內部數據路徑和增加連接性,研究人員開始測試圍繞數據局部性重組硅是否可以在人工智能工作負載上帶來可衡量的性能提升。
![]()
傳統平面芯片設計依賴于有限數量的寬內部數據路徑來服務于許多計算元件。隨著模型的增長和內存訪問的加劇,這些共享路由變成了瓶頸。這迫使可以并行運行的工作爭奪相同的內部帶寬。數據傳輸緩慢,因為芯片內部串行化了太多的操作。
結果就是執行停滯,利用率不均。一些計算單元處于空閑狀態,而另一些則等待輸入。即使原始計算能力可用,也會發生這種情況。能源效率也受到了沖擊。隨著數據被推送到更遠的距離和擁擠的信道,系統的有效吞吐量遠低于其理論極限。這表明,內部數據移動是一個硬上限,即使是額外的計算也無法克服。
這就是許多人所說的“記憶墻”。這就是數據交付作為系統性能的主要約束的地方。
在尋找解決方案的過程中,研究人員發現,圍繞數據局部性重新組織硅可以產生重大影響。它可以實質性地改變人工智能工作負載的執行方式。當你在單片結構中垂直構建內存和邏輯時,芯片會用密集的短垂直連接網絡取代共享的內部路徑。這允許數據更快地移動,同層之間的帶寬爭用更少。
![]()
在早期的硬件測試中,該架構通過更可靠地饋送計算元素來維持更高的利用率,減少了延遲內存訪問造成的停滯。隨著設計在模擬中向上擴展,這些收益也在增長,特別是對于以頻繁讀寫為主的人工智能工作負載。該團隊報告稱,原始性能和能源效率都有所提高。相對于執行計算,較短的數據路徑降低了移動信息的成本。
許多研究人員多年來一直在探索3D芯片設計,但這些努力在很大程度上仍局限于實驗室演示或小規模原型。研究人員表示,這項工作標志著超越這一界限的罕見一步,將可測量的性能提升與商業鑄造環境中的制造相結合。
“這為芯片生產和創新的新時代打開了大門,”斯坦福大學電氣工程教授和計算機科學教授Subhasish Mitra說,他也是描述該芯片的論文的首席研究員,該論文在第71屆IEEE國際電子器件年會上發表。“像這樣的突破是我們實現未來人工智能系統所需的1000倍硬件性能改進的方式。”
雖然性能改進是顯著的,但研究人員強調,這項工作的真正價值在于它對未來硬件開發的影響。
單片3D集成帶來了自身的挑戰,特別是在熱管理和制造良率方面。研究人員還預計,隨著層數的增加,設計復雜性將是一個更大的挑戰。這種架構進入生產系統的速度將取決于幾個因素,包括制造和軟件協同設計的進步。
![]()
盡管存在挑戰和障礙,但垂直集成可以被視為一種基礎設施能力。所以,這不僅僅是一個研究概念。這種轉變使設計周期更快,更廣泛地參與先進的芯片架構。這拓寬了構建數據高效的人工智能系統的選擇范圍。
斯坦福大學工程學院Willard R.和Inez Kerr-Bell教授、西北人工智能中心首席研究員H.S.Philip Wong說:“這樣的突破當然與性能有關。”“但它們也與能力有關。如果我們能制造出先進的3D芯片,我們就能更快地創新,更快地響應,并塑造人工智能硬件的未來。”
與Ai時代前沿合作,將大門向更多普通用戶敞開!免費課程限時領,還有好禮相送!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。文章留言或私信小編拉您入群!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.