公眾號記得加星標??,第一時間看推送不會錯過。
人工智能領域對計算能力的需求如此之大,以至于半導體行業難以滿足這一需求。問題不僅在于計算能力,還在于人工智能數據中心消耗的大量電力。
對于人工智能超大規模數據中心而言,這些問題在邊緣產品制造商身上也有著類似的縮影,這些邊緣產品通常在設備端執行人工智能,并依靠電池供電。邊緣應用開發者希望部署規模越來越大的模型,以獲得更精確的推理并為系統注入更多智能,但卻受到微控制器和微處理器的人工智能性能緩慢和功耗高的限制。
半導體行業目前采用的漸進式人工智能芯片改進方法,無法快速解決這個問題。大多數半導體公司在人工智能領域的做法是,沿用傳統的計算功能架構,然后對其進行微調,使其乘加運算(神經網絡的核心運算)的執行速度和效率略有提高。
但這種方法忽略了一個事實:過去幾十年邏輯芯片中使用的通用計算架構并不適用于人工智能系統所需的大規模并行和互聯矩陣計算操作。人工智能行業對低功耗、高速矩陣計算的迫切需求,需要在硅芯片層面采用一種全新的方法。正如我們將在本文中看到的,Ambient Scientific 在其 GPX 系列人工智能處理器中正是實現了這一點。
傳統馮·諾依曼架構:在神經網絡中效率低下
經典的馮·諾依曼架構幾十年來一直是通用計算的中流砥柱。如圖 1 所示,該模型通過在一個周期內依次獲取、解碼和執行指令來運行,該周期涉及控制單元、算術邏輯單元 (ALU) 和存儲器。
![]()
馮·諾依曼架構之所以占據主導地位,是因為它能有效地處理支撐傳統軟件應用的順序指令。此外,該架構本身靈活、簡單,且相對容易在硅片上制造。然而,這種適用于標準軟件的順序式、指令逐條執行的計算模型,卻并不適用于人工智能軟件。人工智能模型以矩陣形式構建,而非線性序列,因此需要大規模并行計算操作。
將神經網絡的 MAC 工作負載編譯到馮·諾依曼型處理器的指令集架構 (ISA) 會產生海量的運算。對于一個參數量在 500 億到 5000 億之間的大型語言模型 (LLM),一次推理可能需要 1000 億到 10000 億次運算。
當執行數十億次運算時,處理器性能的一個重要決定因素是內存訪問時間,而這正是馮·諾依曼架構的一個眾所周知的局限性。即使通過將最快的SRAM內存與ALU綁定來優化性能,對于最大的模型而言,推理性能仍然令人失望,并且使得處理器價格高得驚人。
基本計算模塊(即馮·諾依曼單元)固有的內存訪問問題,不僅制約著傳統CPU,也嚴重制約著圖形處理器(GPU)或神經網絡處理器(NPU)等并行計算架構。它們的速度和功耗仍然依賴于內存訪問:這些數字架構無法將足夠的內存放置在足夠靠近算術邏輯單元(ALU)的位置。它們受限于DRAM的低速(DRAM無法與ALU集成在同一芯片上,這也是目前GPU性能/功耗問題的原因之一),或者受限于高速片上靜態隨機存取存儲器(SRAM)的容量有限,
使計算架構適應計算任務
在傳統計算架構上實現神經網絡操作存在的問題促使計算機科學家探索另一種方法:脈動陣列,如圖 2 所示。
![]()
這與神經網絡互連的多層結構更為契合。然而,以往在硅芯片上實現脈動陣列的嘗試,在實際應用中難以實現如此密集互連的結構。此外,內存與計算模塊的物理分離,也會導致與馮·諾依曼架構相同的內存訪問問題——降低吞吐量并增加功耗。
脈動陣列是解決計算架構與神經網絡拓撲結構映射問題的有效方案,但要實現它,需要在芯片層面進行創新。Ambient Scientific 的 DigAn 技術正是實現了這一點。
一種新型人工智能處理器:可配置矩陣計算機
DigAn 技術使 Ambient Scientific 能夠在芯片級上制造可配置矩陣計算機。這種全新的方法包含一種新型計算單元——模擬 MAC。該模塊承擔了馮·諾依曼架構中 ALU 和存儲單元的功能(見圖 3)。
![]()
模擬 MAC 針對 AI 系統進行了優化,其中 MAC 運算占計算工作負載的 95%。它支持內存計算,從而解決了馮·諾依曼架構中內存和計算模塊物理分離的問題。這得益于 Ambient Scientific 的另一項創新——HyperPort 3D 內存架構,該架構實現了每個 MAC 單元內存元件的垂直堆疊。
馮·諾依曼架構在神經網絡運算中的第二個缺陷是其將神經網絡模型編譯成指令的方式效率極低。我們通過創建矩陣計算機來解決這個問題。它將模擬 MAC 模塊排列成與神經網絡拓撲結構相對應的形狀。
每個 DigAn 單元都是一個獨立的單片電路,在一個周期內即可計算出一整層神經元。如圖 4 所示,多層 DigAn 電路可以擴展成一個矩陣計算機,其結構與神經網絡的結構相呼應。
![]()
其實際結果是指令周期效率得到了驚人的提高:一個 DigAn 計算塊可以在一個周期內計算一個 1 × 32 × 8 矩陣,而基于傳統硅架構的 AI 處理器則需要 38,600 個周期。
多層 DigAn 模塊構成了一個矩陣計算機:一個典型的 1 × 32 × 8 神經網絡矩陣的 32 層運算,在傳統的計算架構中需要 1,235,200 個時鐘周期才能完成。而在 DigAn 矩陣計算機中,這只需要 32 個時鐘周期。
將神經網絡運算次數從 1,235,200 次減少到 32 次,應用程序的性能和功耗都得到了顯著提升:性能比同等功耗的典型 MCU 高出 100 多倍,或者性能與典型 GPU 相同,但能耗卻不到其 1%。
GPX系列芯片采用全新硅技術
上述性能和功耗方面的突破源于Ambient Scientific致力于采用新型處理架構并開發全新的硅芯片技術來實現該架構。為了實現高速、低功耗的人工智能,這項核心技術必須能夠方便地供嵌入式系統工程師使用。此外,芯片還必須配備相應的開發環境,以便將訓練好的人工智能模型編譯到設備中。
GPX芯片系列提供了這種DigAn實現方案。在GPX產品中,DigAn模塊被組合成AI處理器內核(見圖5),這些內核可擴展以適應不同的應用需求。這些內核被稱為MX8內核。
![]()
截至2025年底,GPX系列包括GPX10和GPX10 Pro兩款產品。其中較新的GPX10 Pro采用兩組各包含五個MX8內核的集群,以極低的功耗實現高性能推理。如圖6所示,它是一款完整的系統級芯片(SoC),通過其Arm Cortex-M4F控制器內核管理控制和傳感器接口操作。
![]()
盡管GPX設備系列采用了全新的底層技術,工程師仍然可以繼續使用成熟可靠的框架和工具進行模型訓練和開發。GPX處理器支持主流的機器學習框架,例如TensorFlow、PyTorch、Keras和ONNX。
Ambient Scientific 的 Nebula 軟件開發工具包(適用于 GPX 設備)還提供了完整的模型訓練工具鏈。它包括將 AI 模型轉換為 MX8 內核的工具,以及用于配置中間件(例如設備驅動程序和實時操作系統)的工具,這些中間件運行在設備的 Cortex-M4F 內核上。
因此,基于 GPX10 或 GPX10 Pro 的邊緣 AI 設計的工程師可以使用熟悉的平臺軟件進行模型開發,并在使用 Ambient Scientific IDE 時保持他們期望從傳統 MCU 獲得的設計效率。
總結
新的GPX芯片系列并沒有采用不適用于人工智能功能的通用計算架構,而是采用了專為神經網絡設計的硅架構。由于MX8 AI內核易于擴展,產品路線圖設想未來的GPX設備將擴展到8000個內核,用于數據中心服務器和超級計算機。
對于優先考慮性能和功耗的 AI 系統開發人員來說,這些新芯片和 DigAn 架構預示著 AI 處理和神經網絡操作的變革時代即將到來。
https://www.allaboutcircuits.com/industry-articles/the-configurable-matrix-computer-a-new-alternative-to-the-von-neumann-architecture/
(來源:編譯自allaboutcircuits)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4266期內容,歡迎關注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.