網易首頁 > 網易號 > 正文申請入駐

MCU/MPU巨頭，集體自研NPU

2026-04-10 08:05:42　來源: EEWorld電子工程世界

北京舉報

分享至

過去幾年，提到邊緣AI，很多人第一反應往往是高性能處理器、SoC。而到如今，在MCU中放入NPU，也已經稀疏平常，畢竟通用MCU的CPU核并不適合直接執行AI/ML運算，將AI推理卸載至NPU后，MCU可專注于其他關鍵功能，從而確保系統實時、高效地運行，搭配干活才不累。

對于Arm MCU和MPU來說，Ethos系列NPU堪稱絕配，很多廠商都選擇了這條路線。不過為了讓MCU和MPU更好的承載AI，幾大MCU/MPU巨頭都在研究自己的NPU，并在最近一段時間不斷加大研究力度。今天，EEWorld就來盤點一下這些廠商的最新動態。

TI：TinyEngine和C7 NPU

德州儀器（TI）目前擁有兩款NPU：面向高性能應用的C7 NPU和面向低功耗可擴展設備的TinyEngine NPU。

根據TI的說法，嵌入式處理器的處理能力、功耗限制以及高門檻的編程專業知識曾限制了邊緣AI的普及。專用硬件如圖形處理器（GPU）、現場可編程門陣列（FPGA）和專用集成電路（ASIC）雖性能出色，但受限于高功耗或靈活性不足。集成的神經網絡處理器（NPU）應運而生——它專門執行構成現代神經網絡基礎的矩陣乘法、卷積運算和激活函數，通過從主CPU卸載計算密集型任務，顯著提高推理速度并降低功耗。

首先，在TinyEngine NPU方面，MCU核心產品包括TMS320F28P550SJ（C2000 MCU）、AM13E230x（M33內核MCU）和MSPM0G5187（80MHz M0+內核MCU）。其對于TinyEngine NPU的理解在于讓AI與控制并行存在，通過硬件層面的任務劃分，讓兩種本質不同的計算同時存在：CPU負責實時控制，NPU負責AI推理。

德州儀器ASM微控制器工業業務負責人吳健鴻向EEWorld解釋，加入NPU的核心原因，就是為了讓AI運算和實時控制可以并行，而不是互相干擾。這并不是一次簡單的性能升級，而是一次架構上的解耦。它讓中低性能的MCU第一次可以在不破壞確定性及低延遲的前提下，引入非確定性的智能計算。

根據TI的官方闡述，TinyEngine NPU 突破了長期以來制約嵌入式人工智能廣泛普及的關鍵設計瓶頸，具備以下優勢：

相較于純軟件實現的人工智能方案，單次推理能耗降低至1/120，延遲降低至1/90；
算力達2.56 GOPS，可支撐深度學習模型的實時邊緣 AI 推理。
支持8比特、4比特、2比特量化及混合精度配置，支持原位運算，有效解決存儲容量受限問題；
兼容多種神經網絡層類型，包括卷積層（常規卷積、深度卷積、逐點卷積、轉置卷積）、全連接層、池化層（平均池化、最大池化），并支持批歸一化；
簡化工具鏈降低開發復雜度，開發周期從數周縮短至數小時。

可以看出，TinyEngine并不試圖對標高端SoC，但它的目標更明確——在超低功耗和低成本下，完成足夠好的AI推理。

TI的策略并不是單點突破，而是構建完整的系統AI能力，所以在TinyEngine NPU之外，另一只手是C7 NPU。

C7 NPU是一款高性能、高能效的AI加速器，集成于TDA54-Q1和TDA4VE-Q1片上系統（SoC）中。它源自TI在DSP領域的長期積累，使TI處理器能夠同時處理多個并發的AI工作負載，適用于高級駕駛輔助系統、信息娛樂和機器人等應用。

另外值得一提的是，TI更是從模擬信號鏈到控制，再到AI推理，其能力覆蓋了一整條技術路徑。

ST：用內存計算（IMC）顛覆NPU

早在2022年，ST就曾宣布，STM32N6將成為ST首個加入NPU的產品，很多工程師也對這一產品翹首以盼。

Neural-Art Accelerator是ST專有知識產權的神經網絡處理單元。其搭載的NPU算力達到600 GOPS，具有3TOPS/W的優異表現。嵌入式的Neural-Art Accelerator 的硬件加速單元在算力處理得當的情況下，可以與Cortex-M55 內核完全獨立并行工作，可以作為 Cortex-M55的協處理器，做AI加速能力運算。

在STM32N6中，NPU采用基于可配置全連接交換機的單向鏈路架構，通過DMA及支持卷積、池化、激活、標量等運算的加速器傳輸數據流，可在運行時定義任意多條并發虛擬處理鏈。完備的反壓機制實現數據流控制與流式多播，支持數據在多個端點間重用；鏈表控制整個周期（可融合多個層）的完全自主處理。多個加速器以分組或鏈接方式并行處理不同大小的特征圖與內核，交換機拓撲在編譯時定義并在運行時動態配置，每個節點代表一個處理單元或內存流通道。該設計支持跨多層的流水線操作并滿足最壞情況延遲約束，而可配置加速器框架（CAF）則負責管理數據傳輸與計算調度，并能自動適應各種網絡層拓撲。

我們都知道，在STM32MP2系列中，NPU并非自研。而在STM32N6上，ST為什么選擇自研，而非Arm？事實上，Arm一直是ST的合作伙伴，ST始終非常重視與Arm的合作。然而，ST自研NPU從六年前就開始設計，并且具有一定靈活性，可以根據不同產品需求進行裁剪，其自研的產品在PPA上具有明顯優勢，同時ST也在為未來的技術創新做準備，尤其是計劃推出的顛覆性技術——IMC（In Memory Computing，內存計算）。這一技術將能夠基于ST的NPU架構進行開發和應用。

根據ST的規劃，第一款神經網絡加速器Neural-ART 1，作為STM32N6微控制器的內核。其最大性能為4.6 TOPS，能效為1～5TOPS/W。下一步，ST將會進一步發展第二代數字內存計算D-IMC，這將帶來比第一代 4 倍的性能提升，能夠達到18TOPS和20～40TOPS/W的性能。Neural-ART 3將是具有混合架構和50+ TOPS/W性能的產品，預計第三代的性能將比第二代再提升10倍。

ST一篇論文中表示，內存計算（IMC）可大幅減少內存數據傳輸，從而降低功耗。“我們已成功完成其數字和模擬版本的原型設計，性能分別提升高達8.3倍和16.7倍。這些技術支持1至8位高級量化，在保證與現有NPU無縫集成的前提下，進一步提升性能并縮小模型體積。”

NXP：一手自研，一手收購

eIQ Neutron NPU是NXP的高度可擴展的加速器內核架構，可提供機器學習加速。該架構優化了功率和性能，與恩智浦廣泛的微控制器和應用處理器產品組合相集成。目前，應用eIQ Neutron NPU的MPU包括i.MX 95、i.MX 952、i.MX 94、i.MX 93、i.MX 8M Plus，跨界MCU包括i.MX RT700，MCU包括MCX N94x和N54X。

eIQ Neutron NPU采用點積脈動架構，支持多種神經網絡類型，包括CNN、RNN、TCN和Transformer網絡等。eIQ機器學習軟件開發環境為eIQ Neutron NPU的ML應用開發提供完整支持。eIQ Neutron支持常見的神經網絡運算符，如Conv2D、Depthwise Conv2D、full connected、Add、Average Pooling2D、Maximum Pooling2D和Padding，它還支持8位量化權重。

eIQ Neutron NPU提供了一系列豐富的功能選項，這些選項會根據該內核所集成到的具體 NXP邊緣處理設備，以及該設備系列所針對的市場需求來進行靈活配置。其主要特性包括：專用的控制器內核；支持在線的反量化、激活和池化操作；內置微型緩存，可有效降低功耗，并減少對系統內存速度的依賴；權重解壓縮引擎；先進的多維DMA，支持步進、批處理、交織和拼接等多種輸入輸出格式；可配置緊耦合內存。

從架構來看，eIQ Neutron NPU采用點積脈動架構，傳統高吞吐量脈動陣列依賴大量寬位（32bit）累加器，帶來顯著的連線、邏輯與寄存器開銷，且在小工作負載下利用率低下。本文點積結構可消除這些缺陷。

除了在MCU、MPU放入NPU，NXP還收購了獨立神經處理單元（DNPU）的領導企業之一Kinara。根據NXP的說法，DNPU非常適合高性能、低延遲的專用AI任務，而集成式NPU則能處理更通用的AI處理以及低功耗始終在線AI功能。這種組合能夠實現更優化、更高效的智能邊緣系統架構。

NXP提供兩款獨立神經處理單元(DNPU)：Ara-1是第一代DNPU，適用于攝像頭、嵌入式系統和邊緣服務器等邊緣設備的高能效AI推理。Ara-2是第二代DNPU，能夠提供高達40 eTOPS的性能，并針對實時生成式AI進行了優化。

英飛凌：針對汽車的PPU

英飛凌沒有直接做NPU，不過針對電動汽車開發了PPU（并行處理單元，Parallel Processing Unit），它并非一個獨立的DSP內核，而是一個高度專業化、可靈活配置的計算加速器集群。目前搭載PPU的產品主要是28nm的AURIX TC4x。PPU擁有靈活的架構，適用于執行速度快且數據處理量大的汽車應用。

實現的任務和用例因應用而異，但可以識別出兩個主要集群。一方面，PPU允許復雜的數據處理和基于觀察者的傳感器執行器系統控制（例如牽引電機逆變器或直流/直流變換器控制）。另一方面，它支持基于人工神經網絡（MLP、RBF、RNN、CNN）的系統建模（例如虛擬傳感器、電池管理系統中的健康狀態/電荷狀態優化，以及未來領域或區域控制器的預測性車輛運動控制）和對象分類（如傳感器融合）解決方案。

PPU模塊內核選擇了新思（Synopsys）的DesignWare ARC EV71處理器。ARC EV系列是Synopsys專門為嵌入式視覺、傳感器融合和人工智能處理而設計的高性能DSP處理器家族。PPU主要內包含：

標量核（Scalar Core）：用于執行大量的標量運算，以及任務調度，支持多種算術運算和邏輯運算，支持硬件浮點運算，提供豐富的硬件功能安全機制；
向量核（Vector core/SIMD Core）：專門用于執行向量運算，支持多種向量算術運算、邏輯運算和專用信號處理，支持整型數和浮點運算，支持多級流水線和SIMD指令；
一級緩存：用于保存計算輸入和輸出數據的存儲空間，由于結構上和運算核緊密耦合，該緩存可以在PPU的執行過程中對狀態進行快速讀寫，并且有EDC/ECC保護，從而實現更高的執行效率和更高的可靠性；
其它系統資源：包括用于快速數據搬運的DMA，共享內存區等。

瑞薩：自研DRP-AI

瑞薩在最新的RA8P1系列等產品用了Arm的Ethos系列NPU，不過這家公司也有自研的AI 加速器：DRP-AI。大多數AI加速器專注于AI推理，依賴CPU進行前后處理，而DRP-AI將預處理、后處理和AI推理集成到單一DRP-AI硬件中，以實現卓越的AI處理性能。其RZ/V2H平臺就集成了最新的DRP-AI3，其他產品包括RZ/V2M、RZ/V2MA、RZ/V2L、RZ/V2N。

DRP-AI由AI-MAC（乘積累加處理器）和DRP（可重構處理器）組成。AI處理可通過在卷積層和全連接層為運算分配AI-MAC來高速執行，而且DRP也適用于預處理和池化層等其他復雜的處理。

DRP-AI3是瑞薩在2024年推出的新一代DRP-AI，與上一代相比，電源能效高出約10倍。 DRP-AI3 能夠應對AI的未來發展需要以及機器人等應用的復雜需求。

DRP-AI3算力達到8 TOPS，此外，對于已剪枝的 AI 模型，可以根據剪枝量信息成比例地減少運算周期次數，從而使 AI 模型運算性能達到剪枝前模型的峰值水平 (80 TOPS)。這相當于高出傳統DRP-AI處理性能約80倍，這樣的大幅度性能提升足以跟上 AI 快速發展的步伐。在電源能效方面，僅 AI 加速器的性能評估顯示，其最高理論性能約為 23 TOPS/W，運行主流AI模型時的電源能效達到世界頂尖水平（約為10 TOPS/W）。

DRP - AI如何與瑞薩的MCU/MPU協同工作以實現AI推理加速？MCU主要運行機器學習算法，MPU側重深度學習視覺方向算法。硬件層面，二者通過高速內部總線通信，保障數據快速流轉；軟件層面，優化驅動與接口程序，讓調用DRP - AI算力如同調用本地函數般便捷，無縫銜接實現 AI 推理加速。

參考文獻

[1]TI：https://www.ti.com/lit/wp/spry349a/spry349a.pdf

[2]芯視點：https://mp.weixin.qq.com/s/-KpDskzgV7MT-u-0XfSihA

[3]IEEE：https://arxiv.org/pdf/2509.14388

[4]ST：https://shequ.stmicroelectronics.cn/thread-645078-1-1.html

[5]汽車電子與軟件：https://mp.weixin.qq.com/s/kXG7a1mMS8KDITJGk8hEXA

[6]瑞薩：https://www.renesas.cn/zh/software-tool/ai-accelerator-drp-ai

[7]Digikey：https://www.digikey.cn/zh/forum/t/topic/4291

請將我們設為“星標”，這樣就會第一時間收到推送消息。

歡迎關注EEWorld旗下訂閱號：“機器人開發圈”

掃碼添加小助手回復“機器人”

進群和電子工程師們面對面交流經驗

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.