網易首頁 > 網易號 > 正文申請入駐

一文看懂NPU

2026-04-17 10:08:21　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

人工智能的近期崛起正處于“第三階段”。第一階段大約從1956年到1974年，第二階段大約從1980年到1987年，第三階段始于1993年。人工智能在前兩個階段發展停滯的主要原因是當時的計算能力無法滿足需求。然而，1993年，由于計算能力的顯著提升，人們發現“傳統算法在一定程度上可以發揮作用”。1997年，IBM制造出了“深藍”，并擊敗了當時的國際象棋世界冠軍加里·基莫維奇·卡斯帕羅夫。

然而，在當時，“深藍”是一項相當蠻力的壯舉，它使用一個配備 512 個專用 VLSI 芯片的 32 節點 RS/6000 系統，每秒可以預測 2 億步，而且這種技術還不常見。

使這項技術更加普及并被研究人員廣泛應用的轉折點是2012年的ILSVRC（ImageNet大規模視覺識別挑戰賽）。在這次比賽中，多倫多大學基于卷積神經網絡的“ AlexNet ”取得了卓越的成績，并榮獲第一名。此后，此前探索其他方法的研究人員紛紛轉向卷積神經網絡（CNN）。很快，CNN就成為了人工智能第三次浪潮發展的核心。

那么，卷積神經網絡（CNN）究竟是什么？在開發人工智能時，考慮對人腦結構進行建模是很自然的事情。其理論基礎源于弗蘭克·羅森布拉特博士1958年發表的論文《感知器：大腦信息存儲和組織的概率模型》。該論文構建了一種機制，用感知器進行數值計算，從而模擬大腦的結構。

人們曾多次嘗試利用這項技術來實現人工智能。例如，成立于1983年、正值人工智能發展第二階段的美國公司Thinking Machines，于1985年發布了名為“CM-1”的系統。該系統由65,536個1位處理器（3位輸入，2位輸出）組成。每個處理器都對應大腦中的一個神經元，處理器之間的連接則類似于大腦中的突觸。當時的嘗試是利用感知器來實現人工智能系統，但盡管65,536個處理器在當時已是一個相當大的數字，但與人腦相比仍然相形見絀。因此，CM-1及其后續產品更多地被用作高性能計算（HPC）系統，而非用于人工智能研究。

那么，多倫多大學的研究為何能做到CM-1無法做到的事情呢？答案歸根結底在于計算性能的顯著提升。CM-1擁有65,536個1位處理器，每個處理器配備4Kbit的SRAM，最初的原型機運行頻率約為4MHz。在執行32位加法運算時，系統整體性能約為1,000 MIPS，內存帶寬至少為32Mbps，典型值約為1Gbps。

相比之下，多倫多大學很可能使用了基于費米架構的NVIDIA Tesla顯卡，即使是入門級的C2050型號也擁有1.03 TFlops的計算性能和144 GB/s的最大內存帶寬，與CM-1相比性能有了顯著提升。AlexNet模型使用了兩張這樣的顯卡，并以滿負荷運行了大約兩周。如果使用CM-1完成同樣的任務，則需要70多年。簡而言之，計算能力的顯著提升使得這項任務成為現實。

CNN需要什么？

既然說到這個話題，我們就以 AlexNet 為例，進一步解釋一下。圖 1 是 AlexNet 的結構圖。圖中數據從左到右流動。首先，最左邊的元素是輸入圖像，它是 224x224 像素的 RGB 數據。然后，它通過 96 個不同的濾波器（每個濾波器 11x11 像素）進行 55x55 的卷積。由于每個濾波器都會產生一個卷積結果，因此總共有 96 個 55x55 的輸出。對這些輸出應用激活函數，然后進行最大池化操作。

接下來，結果再次經過卷積、激活函數和最大池化。然后對結果進行三次卷積。經過第三次最大池化操作后，通過全連接過程獲得最終輸出。AlexNet 的目的是對輸入圖像進行分類，由于有 1000 個可能的輸出候選結果，因此全連接輸出將產生 1000 個結果。

無需贅述每個步驟的細節，卷積運算的計算過程如圖 2 所示。這里展示的是一個 3x3 的濾波器應用于 6x6 的輸入數據，得到一個 4x4 的輸出。然而，每個 4x4 的輸出都需要 9 次乘法運算和一次加法運算，因此，要得到這個卷積結果，總共需要 144 次乘法運算和 16 次加法運算。

順便一提，之所以加法運算次數如此之少，是因為人工智能計算機通常都具備一種機制，允許同時執行多個加法運算。如果沒有這種機制，每次都需要執行 8 次加法運算，總共需要 128 次。在上圖 1 中，第一個卷積層將一個 11x11 的濾波器應用于一個 224x224 的輸入，最終得到一個 55x55 的結果（這里是 55，因為我們使用了 4 的步長，這意味著我們每四步計算一次；通常情況下，輸出應該是 216x216）。在這種情況下，所需的計算次數為 11x11x55x55 = 366,025 次乘法運算和 363,000 次加法運算。此外，對 96 種類型的過濾器中的每一種都進行此操作，因此總共需要進行 35,138,400 次乘法和 34,848,000 次加法。

假設CPU運行頻率為1GHz，每個周期執行一次加法或乘法運算，那么整個過程大約需要0.07秒。然而，問題在于這僅僅是第一層的處理時間。卷積運算之后會無限循環，導致總計算量巨大。

更糟糕的是，與之后出現的各種卷積神經網絡（CNN）相比，AlexNet 的計算量相對較小。2015 年，微軟在 ILSVRC 大會上發布了 ResNet，其錯誤率遠低于人類（3.57%，而 AlexNet 為 16.4%，普通人的正確率為 5.1%），因此備受贊譽。但 ResNet 的網絡結構高達 152 層。毋庸置疑，其計算成本極其巨大。

GPU流行起來的原因

當時，使用GPU顯卡來構建和訓練AlexNet（據說用兩張GPU顯卡就花了兩個星期）是必要的。簡而言之，唯一的原因是GPU是唯一能夠以合理速度處理如此龐大計算量的設備。

2007 年，NVIDIA 發布了 CUDA，作為 GPU 的通用 API，并于同年利用 CUDA 推出了面向高性能計算和其他應用的 Tesla 系列服務器 GPU。同年，AMD 也開始提供一系列支持 OpenCL 的服務器 GPU（FirePro 系列），OpenCL 由 Khronos Group 標準化。

使用GPU在這里帶來了諸多優勢。其中之一是計算本身固有的高度并行性。以圖2為例，Z1、Z2和Y1的計算可以彼此獨立地執行。GPU中使用的SIMT（單指令多線程）機制的工作原理是：指令本身（在本例中為3×3乘法及其結果的加法）是通用的，而每個線程處理的數據各不相同。SIMT類似于SIMD，但區別在于SIMT的同步是在線程級別而非指令級別進行的。在圖2中，16個操作Z1-Z4、Y1-Y4、X1-X4和W1-W4可以分別分配給不同的線程并同時處理。當然，在實際應用中，需要處理的數據量要大得多，但可用的線程數量也更多。

例如，Fermi 架構擁有24,576 個可用線程。當然，不可能同時運行超過 20,000 個線程（因此大多數線程只能耐心等待輪到自己處理任務），但考慮到諸如內存訪問之類的等待時間，這個線程數量足以維持穩定的運行狀態。

另一個優點是它不需要太多內存。回到圖 2，即使源數據、濾波器和結果都采用 FP32 格式，所需的數據大小也僅為 244 字節。然而，計算僅需 272 次運算（144 次加法）。換句話說，它可以在低于 1 Flops/Bytes 的帶寬下運行，即使在沒有大緩存的 GPU 上也能輕松執行。

即使以圖 1 中 AlexNet 的第一層為例，其輸入為 224x224 = 196KB，濾波器為 11x11x96 = 45.4KB，輸出為 55x55x96 = 1134.46KB。總大小約為 1.3MB，完全可以放入 L2 緩存中。另一方面，如前所述，其計算復雜度約為 7000 萬次迭代。考慮到計算復雜度和所需內存（緩存）大小之間的平衡，顯然這是一個計算密集型配置。（即使在今天）當時的 GPU 的內存帶寬未必足以滿足其計算性能，但對于 CNN 而言，通過一些巧妙的方法似乎可以高效地處理它們。

最重要的是，GPU最大的優勢在于其極易獲取。2012年ILSVRC發布后，研究人員紛紛搶購GPU并開始自己的研究。結果，NVIDIA的Tesla顯卡很快變得一貨難求，甚至出現了搶購消費級GeForce顯卡的風潮。GeForce顯卡在任何電腦商店都能買到，這對人工智能研究人員來說極其便利。此外，CUDA比OpenCL更容易使用（畢竟AlexNet是用CUDA編寫的，研究人員也紛紛效仿），人工智能與CUDA的聯系迅速形成。此后，一切都只是擴展和復制的過程。

NVIDIA 在 2014 年 GTC 大會主題演講的第三部分專門討論了人工智能（當時稱為機器學習，而非 AI），并在第四部分展示了一款基于 CUDA 的自動駕駛汽車，這充分展現了其對該領域的投入。而像 AMD 這樣的競爭對手直到很久以后才開始談論人工智能/機器學習，這進一步強化了“如果你想使用人工智能，就需要一塊 NVIDIA GPU”的觀念。

GPU上的AI處理

然而，需要注意的是，雖然GPU具備一些適用于人工智能的特性，但它們并非專為人工智能而設計。NVIDIA自身也深知這一點，并將繼續根據具體情況，對GPU的人工智能專用功能進行增強。

首先，我們引入了張量核心（Tensor Core）。在卷積神經網絡（CNN）中，卷積運算通常會占用超過90%的總計算量。為了更高效地處理這些運算，為系統配備專門用于二維運算（例如矩陣運算）的計算單元，而不是僅僅用于常規運算或一維單指令多數據流（SIMD），顯然更為明智。基于這一理念，張量核心于2017年在Volta架構中引入。

接下來是改變數據類型。在卷積神經網絡（CNN）中，研究證實，提高整體計算性能而非提升每次計算的精度，能夠帶來更好的最終結果。換句話說，如果使用 FP32 而非 FP64 來提升計算性能，同時運行規模翻倍的網絡，則可以在相同的吞吐量下獲得更好的結果。如果降低每次計算的精度，例如使用 FP16/BF16 或 FP8，并通過構建更大的網絡來彌補精度損失，則可以獲得更好的結果。

因此，繼 Tensor FP32（取代 FP32）、FP16/BF16（此前未用于數值計算）和 FP8/FP6 等類型之后，最新的 Blackwell 版本又增加了對 FP4 的支持。盡管 FP4 的速度并非簡單地比 FP64 快 16 倍（因為存在數據路徑優化等硬件相關問題），但對 FP4 的支持確實帶來了顯著的性能提升 (*1)。

（*1）實際上，對 FP64 和其他方法的硬件支持已經減少，部分運算現在由軟件實現。因此，自 Blackwell 世代以來，FP64 的性能大幅下降，考慮到這一點，FP4 的性能不再是 FP64 的 16 倍。

然而，使用大規模網絡也意味著消耗大量內存。只要數據寬度減半，網絡規模僅翻倍，內存就不會短缺。但實際上，網絡規模的增長速度遠超翻倍。此外，雖然像 AlexNet 這樣的小規模網絡可以使用 L2 內存進行管理，但后續的網絡規模都大幅增長，不僅網絡層數更多，而且規模也更大，因此大量的內存訪問不可避免。這意味著我們需要提升內存容量和內存帶寬，而 NVIDIA 正通過集成 HBM 內存來解決這個問題。

然而，各種難題也開始顯現。首先是電源問題。Ampere架構A100的TDP為250W，Hopper架構H200為700W，Blackwell架構B300為1400W，這些數值都給數據中心的電源供應帶來了挑戰。因此，NVIDIA正大力推動從2025財年開始采用800V電源。這是因為，近期發布的基于Vera Rubin核心的NVL144據說每個機架的功率為120-140kW，而下一代搭載Rubin Ultra核心的NVL576據說每個機架的功率高達600kW，如此巨大的電流在傳統的100-200V電源下難以滿足需求。

我們確實也在努力跟上LLM和Aggressive AI等新趨勢。由于SIMT架構，我們同時處理的數據越多，結果就越高效。這被稱為批處理大小，在LLM中，它是一個表示一次處理多少個字符或句子的數值。當批處理大小較大時，GPU效率很高；但當批處理大小減小時，GPU的性能會突然下降，或者不再提升。

關于LLM，NVIDIA提出了在2025年實現獨立推理的方案，并開源了一個名為Dynamo的新框架，同時表示將使用該框架進行實現。Dynamo旨在將LLM推理分解為兩個階段：預填充和解碼。預填充階段由傳統的GPU處理，而解碼階段則由新推出的名為Rubin CPX的GPU處理。

然而，這項計劃今年已被取消，預填充將采用傳統的 Rubin 處理器。取而代之的是，解碼將采用三月份 GTC 大會上宣布的“Groq 3”處理器。就在六個月前，他們還在 2025 年 10 月的路線圖中大肆宣傳“CUDA Everywhere”，如今卻采用了不兼容 CUDA 的處理器，這暴露了他們 GPU 的局限性。

另一點需要指出的是，SIMD 結構本身難以處理稀疏性（稀疏矩陣）。稀疏矩陣是指元素包含“0”的矩陣。圖 3 是圖 2 的修改版本，其中濾波器的元素為零。在這種情況下，理想情況下計算量應該顯著減少，如圖中下方所示，但實際上，計算中卻包含了不必要的零乘法和零加法，如圖中右下角所示。如果可以省略這些操作，計算效率會更高，但這在常規矩陣計算中很難實現。

NVIDIA 針對稀疏矩陣提出了多種解決方案。例如，Ampere 架構中引入的稀疏矩陣支持機制，會預先檢測濾波器中的零元素，通過移除這些元素生成壓縮矩陣格式，然后使用該格式進行卷積運算以提高效率。然而，如果原始數據本身就是稀疏的，這種方法就無效了（不壓縮數據比每次都壓縮數據更快）。雖然這并非致命問題，但無疑是其缺點之一。）

人工智能處理器/加速器

人工智能處理器和人工智能加速器的研發始于 2010 年代初期。確切地說，2010 年代初期的許多設備最初是媒體加速器或 DSP，并非專門針對人工智能，但后來為了利用人工智能市場的崛起，改變了方向，轉而瞄準人工智能。

另一方面，從2010年代末開始，使用GPU的AI的缺點和不足逐漸顯現，導致越來越多的制造商開始設計能夠彌補這些缺點或針對GPU不適用的市場而設計的AI處理器/加速器。當然，不同目標市場的配置差異很大，但如果要強調一些特點，

極其擅長人工智能計算

GPU（盡管其可靠性日益下降）能夠進行通用計算。它們支持 FP4、FP8/BF16、Int 4/8/16/32 和 FP32/FP64 等數據類型，并且涵蓋的功能遠不止基本的算術運算。

雖然它并不完全包含位操作，但它可以執行條件分支和相當通用的數值計算。相比之下，許多人工智能處理器/加速器僅支持對特定數據類型進行卷積和激活函數運算。有些甚至完全放棄了執行控制，許多加速器只是簡單地將數據寫入內存，然后觸發執行命令，結果會在一定數量的周期后出現。

然而，這種方法往往缺乏通用性，因此在實踐中，許多制造商采用了一種結構，將通用 CPU 內核（這里經常使用 RISC-V 內核，不僅是因為許可和版稅的原因，還因為內核可以修改）與專為 AI 計算設計的加速器相結合。

實現方法多種多樣，但一種常見的做法是修改指令流水線，并將AI指令的控制權完全交給AI加速器。這樣，即使未來開發出新的算法，現有計算單元無法處理，仍然可以通過通用CPU內核的ALU來處理（盡管性能會有所降低）。

數據流

盡管數據流的實用性早已在學術論文和其他出版物中得到廣泛討論，但它尚未在商業產品中得到應用。然而，它在人工智能處理器中已變得如此普遍，以至于那些沒有采用數據流的處理器似乎成了少數。

本質上，當多個執行單元（通常稱為 PE：處理器元件）按順序連接時，其機制是“當前一個 PE 的輸出到達時，它將其作為輸入并開始處理，處理完成后，它進入等待狀態”。利用這一機制，例如，可以非常輕松地實現使用稀疏矩陣的卷積（圖 4）。系數為 0 的 PE 根本不接收輸入（因此它們不工作，從而降低了功耗），并且由于它們不產生結果，因此不會發生不必要的加法運算。

更積極主動地利用數據流的方法是改變處理流程本身。以GPU（或者更準確地說是SIMT）為例，處理程序（在NVIDIA術語中稱為內核）原則上對所有線程都是通用的。之所以說“原則上”，是因為當然存在例外；并非不可能為每個捆綁在一起的多線程單元（稱為線程束）更改內核。然而，這容易做到嗎？答案是否定的；這相當困難。

為了簡化起見，我們假設內核對所有線程都是相同的。以 AlexNet 為例，同樣為了簡化起見，我們假設該過程包含 6 個步驟：5 個卷積層（激活層和最大池化層被視為卷積層的一部分）+ 全連接層。在非數據流方法（例如 GPU，這里也包括 DSP 和通用 CPU）中，該過程采用分時方式，并按照圖 5 左側所示的順序進行卷積，從到以此類推。然而，由于每個進程都需要切換，因此開銷相當大。

另一方面，如圖 5 右側所示，在數據流中，可以像 CPU 流水線一樣，將處理任務劃分并分配給各個進程。這種方法可以根據每個進程的負載調整分配的 PE 數量，從而輕松優化負載，最重要的是，由于無需更改單個 PE 的處理方式，因此可以最大限度地減少開銷。如果 PE 容量充足，還可以同時運行多種類型的網絡。這種靈活性對于 AI 處理器/加速器來說非常理想。

CIM（內存計算）/PIM（內存處理器）

無論名稱如何，原理都是一樣的。

具體來說，從功耗角度來看，處理器中最耗電的活動是數據傳輸。簡而言之，運算單元和內存之間的數據傳輸所需功率最大，因為數據要從內存移動到運算單元進行計算，然后將結果返回內存。

其理念是，如果將內存單元和運算單元集成到一個單元中，就能降低功耗。順便一提，這種理念以前也曾有人嘗試過，但最終都失敗了，例如NeoMagic的“ APA”和Connex Technology的“ CA1024 ”等早期產品，但令人驚訝的是，它與人工智能的兼容性非常好。

這是因為，從面積角度來看，在PIM/CIM系統中實現復雜的ALU（算術邏輯單元）比較困難，但卷積運算的實現卻很簡單，因為它本質上只涉及加法和乘法。而且，由于超過90%的計算都是卷積運算，因此降低卷積運算的功耗對整個系統的影響非常顯著，性價比很高。

在這方面，三星已經研制出將處理器集成到HBM中的AI加速器原型，SK海力士也對GDDR內存進行了類似的研究，兩家公司目前都在繼續推進商業化研發。英特爾也在2022年超大規模集成電路研討會上宣布，將把處理器集成到CPU的L3緩存中（盡管這似乎仍處于研究階段，并非旨在商業化）。此外，稍后將解釋的模擬處理器，原則上也可以被視為一種CIM/PIM。

雖然 CIM/PIM 由于其電路尺寸的顯著限制，對于通用處理器實現而言并不實用，但它作為卷積運算加速器卻被認為相當實用，而且接下來要討論的許多 SRAM 實現也正在以類似 CIM/PIM 的方式進行考慮。

大量SRAM

這與CIM/PIM相關，但AI處理器/加速器配備了大量PE（處理單元）以提升計算性能。顯然，提高運行頻率并非可行之策（因為性能/功耗比會急劇下降）。這意味著需要大量的內存，但片外DRAM帶寬低、延遲高，且涉及片外數據傳輸，會增加功耗，因此通常被避免使用。因此，目前的趨勢是采用大量的SRAM。

或許，Cerebras 的“WSE（晶圓級引擎）”是這一光譜的極端代表。最初的“WSE-1”擁有 40 萬個處理單元 (PE) 和 18GB 的 SRAM，而最新的“WSE-3”則擁有 90 萬個處理單元 (PE) 和 44GB 的 SRAM。當然，這些功能都無法集成到單個芯片上，因此 WSE-3 是一款邊長 21.5 厘米的正方形芯片（？），由 84 個芯片組成。

通常，人工智能處理器/加速器（尤其是數據中心用的）往往采用配備大量SRAM的大型芯片。順便一提，這些SRAM通常被用作暫存區（ScratchPad），也就是說，它是一塊可以由處理器（PE）顯式訪問的內存區域，而不是緩存。此外，通常采用CIM/PIM方法，將SRAM放置在各個PE附近，并在本地SRAM中執行處理，以減少數據傳輸。

超高速DRAM

超高速DRAM，毋庸置疑，指的是HBM。雖然功耗和價格更高，但它能提供比普通DRAM更高的帶寬。特別是，由于LLM（低級存儲器）的快速普及和發展，片上SRAM已不再足夠。因此，近年來，AI處理器通常每個芯片集成2到4個HBM芯片。目前，雖然一些CPU也采用了HBM，但大多數都是面向AI的處理器或GPU，這也可以說是AI處理器的一個特點。

模擬處理器

模擬處理器更適合邊緣計算而不是數據中心，但也有一些例子表明，通過使用模擬電路執行卷積運算，它們可以同時實現節能和高性能/低成本。

例如，Mythic 使用閃存將存儲單元視為可變電阻器，從而能夠利用模擬電路對由數模轉換器 (DAC) 轉換為模擬信號的輸入數據進行乘法和加法運算。Aspinity 的“AnalogML”也旨在利用名為 RAMP（可重構模擬模塊化處理器）的引擎實現基于模擬的計算。

雖然其配置不太適合數據中心，但該公司正通過強調其極低的功耗（幾瓦）以及由于采用模擬電路而可以使用相對老舊的工藝制造（因此制造成本低）來拓展銷售渠道。最近，以色列公司 CogniFiber 也受到了關注，該公司正在開發一種使用光纖的 AI 加速器。

我想大概就是這樣吧？

（來源：編譯自pcwatch）

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4379內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.