![]()
![]()
打造 AI 時代計算效率的新標桿。
作者|靖宇
去年一本講述周朝滅商的歷史學(xué)著作《翦商》,讓不少人對于商朝這個傳說中的朝代,有了完全不同于《封神榜》中神仙妖怪的認知。
作者李碩認為,周文王作為邊緣民族的頭領(lǐng),被商王囚禁在地牢里自己弄出的「周易」,本質(zhì)是私下利用了當(dāng)時流行的占卜技術(shù),來預(yù)測未來推翻商朝可能性大小。
文王的兒子武王,成功推翻商朝后,在周公旦的努力下,「周易」變成了之后知名的《易經(jīng)》,變身成中國文化中神秘科技的代表。
其實,如果擴大一些視角,《易經(jīng)》代表的幾千年前的科技巔峰,和當(dāng)下最流行的大模型技術(shù)引領(lǐng)的 AI 多少有些相似之處——都是利用算力來預(yù)測未來。關(guān)鍵在于,幾千年前人們用的是木棍和腦力,現(xiàn)在,用的則是芯片,此事在劉慈欣的《三體》中亦有記載。
![]()
隨著 AI 大模型技術(shù)從云端向邊緣側(cè)、端側(cè)設(shè)備下沉,一場圍繞端側(cè) AI 算力的「軍備競賽」已經(jīng)打響。從智能手機、AI PC 到智能汽車,消費者對設(shè)備本地運行 AIGC 的需求正迎來爆發(fā)性增長。然而,要在功耗、散熱和成本都受到嚴格限制的端側(cè)設(shè)備上,高效運行動輒數(shù)十億參數(shù)的大模型,整個行業(yè)都面臨著算力受限、能效要求嚴苛、帶寬瓶明等一系列嚴峻挑戰(zhàn)。
正是在這一行業(yè)背景下,11 月 13 日,安謀科技(Arm China)在上海正式發(fā)布了「周易」X3 NPU IP。這不僅是安謀科技 Arm China 明確「All in AI」產(chǎn)品戰(zhàn)略后推出的首款重磅產(chǎn)品,也被視為其「AI Arm CHINA」戰(zhàn)略發(fā)展的關(guān)鍵實踐。安謀科技 Arm China 毫不掩飾其目標,即直面端側(cè) AI 大模型運行的難題,打造計算效率的新標桿。
01
為 Transformer 和浮點計算而生
半導(dǎo)體 IP 行業(yè)的一個共識是,產(chǎn)品研發(fā)必須「面向未來 5 年進行前瞻布局」。安謀科技 Arm China 產(chǎn)品研發(fā)副總裁劉浩在發(fā)布會上也強調(diào)了這一點,他表示公司將持續(xù)加大投入,以「前瞻性視野整合頂尖研發(fā)資源」,并秉持「開放合作理念」,為伙伴提供從硬件到軟件的端到端解決方案。
「周易」X3 正是這一前瞻性布局的產(chǎn)物。安謀科技 Arm China NPU 產(chǎn)品線負責(zé)人兼首席架構(gòu)師舒浩博士指出,X3 的產(chǎn)品優(yōu)勢源于其「通用、靈活、高效且軟硬協(xié)同的系統(tǒng)架構(gòu)設(shè)計」。
這種前瞻性首先體現(xiàn)在架構(gòu)上。「周易」X3 采用了一種專為大模型而生的最新 DSP+DSA 架構(gòu)。它在設(shè)計之初就深刻理解了 AI 模型的演進趨勢——即從傳統(tǒng)的 CNN(卷積神經(jīng)網(wǎng)絡(luò))全面轉(zhuǎn)向 Transformer(大模型的基礎(chǔ)架構(gòu))。
![]()
因此,X3 采用了「兼顧 CNN 與 Transformer 的通用架構(gòu)設(shè)計」 ,使其既能高效處理傳統(tǒng)的 AI 任務(wù),也能從容應(yīng)對未來幾年的 Gen AI(生成式 AI)、Agentic AI(代理 AI)與 Physical AI(具身智能)的端側(cè)落地需求。
這種新架構(gòu)帶來的另一個關(guān)鍵轉(zhuǎn)變,是對浮點運算的強力支持。傳統(tǒng) AI 運算(如安防)大多使用定點計算,而大模型推理則高度依賴浮點(FP)運算。X3 全面增強了浮點運算(FLOPS)能力,支持從定點到浮點計算的關(guān)鍵轉(zhuǎn)變,為承載大模型奠定了技術(shù)基石。
02
解碼 10 倍 AIGC 算力
如果說架構(gòu)是藍圖,那么性能數(shù)據(jù)就是最直觀的成果。相較于上一代產(chǎn)品,「周易」X3 在 AIGC 大模型能力上實現(xiàn)了高達 10 倍的增長。這一驚人的躍升并非單一因素造就,而是由 16 倍的 FP16 TFLOPS(每秒萬億次半精度浮點運算)、4 倍的計算核心帶寬,以及超過 10 倍的 Softmax 和 LayerNorm(均為大模型關(guān)鍵算子)性能提升共同驅(qū)動的。
在具體規(guī)格上,「周易」X3 的單 Cluster(集群)最高支持 4 個 Core(核心),可提供 8 至 80 FP8 TFLOPS(每秒萬億次 8 位浮點運算)的算力,并且支持靈活配置。其單核帶寬高達 256GB/s。即使在傳統(tǒng)的 CNN 模型上,其性能也比 X2 提升了 30%~50%。
但對于大模型而言,峰值算力(TFLOPS)只是「入場券」,如何真正在運行中把算力用起來,即「算力利用率」,才是核心難題。
![]()
周易 X3 NPU IP 發(fā)布會現(xiàn)場|圖片來源:安謀科技
安謀科技 Arm China 給出了一組基于 Llama2 7B(70 億參數(shù))大模型的實測數(shù)據(jù):「周易」X3 在 Prefill(處理提示詞)階段的算力利用率高達 72%。這是一個遠超行業(yè)平均水平的數(shù)字,意味著 NPU 在處理用戶輸入時沒有「出工不出力」。
更令人矚目的是 Decode(生成 token)階段的數(shù)據(jù)。安謀科技 Arm China 宣稱,在自研解壓硬件 WDC 的加持下,X3 實現(xiàn)了「Decode 階段有效帶寬利用率超 100%」。
「有效帶寬超 100%」聽起來有悖常理,但這背后是安謀科技 Arm China 解決端側(cè)帶寬瓶頸的「獨門武器」。這個名為 WDC 的自研解壓硬件 ,允許大模型的權(quán)重(Weights)以軟件無損壓縮的形式存儲。在 NPU 運算需要調(diào)用這些權(quán)重時,WDC 硬件會實時進行解壓。這一過程對軟件透明,卻能帶來 15%~20% 的等效帶寬提升。換言之,它讓有限的物理帶寬「跑」出了遠超其物理限制的數(shù)據(jù)量,從而極大滿足了大模型解碼階段對高吞吐量的渴求。
為了讓云端大模型能高效遷移到端側(cè),「周易」X3 還在架構(gòu)上集成了多項關(guān)鍵創(chuàng)新。它新增了 W4A8/W4A16(4 位權(quán)重、8/16 位激活)計算加速模式,這種低比特量化技術(shù)能大幅降低模型對帶寬的消耗。同時,它提供了極其廣泛的多精度融合計算支持,涵蓋 int4, int8, int16, int32, fp4, fp8, fp16, bf16, fp32 等幾乎所有主流數(shù)據(jù)類型,使其能靈活平衡性能與能效,適配從傳統(tǒng) CNN 到前沿大模型的各種需求。
此外,X3 還集成了一個 AI 專屬硬件引擎 AIFF(AI Fixed-Function)和一個專用硬化調(diào)度器。在智能座艙或 ADAS 這類需要多任務(wù)并行和高優(yōu)先級響應(yīng)的場景中,這一設(shè)計至關(guān)重要。它能將 AI 任務(wù)調(diào)度對 CPU 的負載降低至 0.5% ,讓寶貴的 CPU 資源去處理其他系統(tǒng)任務(wù),同時確保高優(yōu)先級 AI 任務(wù)(如碰撞預(yù)警)獲得即時響應(yīng)。
03
讓 AI 開發(fā)從「好用」到「用好」
「周易」X3 不僅僅是一塊高性能的硬件 IP,它還配套了一個名為「Compass AI」的軟件平臺。安謀科技 Arm China 產(chǎn)品總監(jiān)鮑敏祺指出,X3 遵循「軟硬協(xié)同、全周期服務(wù)與成就客戶」的準則,旨在提供從硬件、軟件到售后服務(wù)的全鏈路支持。
在 AI 落地過程中,軟件開發(fā)的「適配難、周期長、門檻高」是長期存在的痛點。「Compass AI」平臺的目標,就是通過「軟硬一體」的協(xié)同設(shè)計,讓開發(fā)者從「好用」進階到「用好」。
![]()
「Compass AI」的軟件平臺|圖片來源:安謀科技
該平臺的核心是 NN Compiler(神經(jīng)網(wǎng)絡(luò)編譯器)。它支持 TensorFlow、ONNX、PyTorch 等主流 AI 框架,兼容超過 160 種算子和 270 種模型。
對于當(dāng)前火熱的大模型生態(tài),「Compass AI」平臺提供了一個極具吸引力的功能:通過其 AIPULLM 工具鏈,可直接支持 Hugging Face 格式模型,實現(xiàn)「一站式」轉(zhuǎn)化與部署。Hugging Face 是全球最大的 AI 模型集散地,這一功能意味著開發(fā)者可以極低門檻地將社區(qū)的前沿模型快速部署到「周易」X3 上。
該平臺還具備先進的模型推理優(yōu)化能力,包括業(yè)界領(lǐng)先的大模型動態(tài) shape 支持(能高效處理任意長度的輸入序列),并支持 GPTQ 等主流量化方案,以及對 LLM(大語言模型)、VLM(視覺語言模型)和 MoE(混合專家模型)的高性能支持。
更重要的是,安謀科技 Arm China 選擇了「開放生態(tài)」路線。Compass 平臺中的 Parser(模型解析)、Optimizer(優(yōu)化器)、Linux Driver(驅(qū)動)等核心組件已相繼開源。這為開發(fā)者提供了「白盒」部署的可能,他們可以利用豐富的調(diào)試工具和 Bit 精度軟件仿真平臺進行深度性能調(diào)優(yōu)。有能力的客戶甚至可以利用平臺提供的工具和接口,開發(fā)自定義算子,乃至打造出「屬于自己的模型編譯器」,從而實現(xiàn)產(chǎn)品差異化。
這種「軟硬協(xié)同」貫穿了 X3 的設(shè)計始終。例如 AIFF 模塊,硬件團隊通過增大總線帶寬、增加 DMA(直接內(nèi)存訪問)的 outstanding 等方式提升數(shù)據(jù)搬運效率;軟件團隊則針對性設(shè)計專屬使用模式,如對模型進行合理切分,以充分發(fā)揮多核并行優(yōu)勢。在系統(tǒng)兼容性上,Compass 平臺也做到了全面覆蓋,支持 Android、Linux、RTOS、QNX 等多種操作系統(tǒng),并通過 TVM/ONNX 實現(xiàn) SoC 異構(gòu)計算。
04
從無形 IP 到 AI 萬象
「周易」X3 的發(fā)布,清晰地勾勒出了安謀科技 Arm China 面向的四大核心領(lǐng)域:基礎(chǔ)設(shè)施、智能汽車、移動終端和智能物聯(lián)網(wǎng)。
在發(fā)布會現(xiàn)場的 demo 展示區(qū),安謀科技 Arm China 展示了「周易」IP 家族的演進:從 Z1 賦能 AIoT 的人臉識別 ,到 Z2/Z3 進入入門級座艙和輔助駕駛 ,再到 X1/X2 運行自動泊車、Stable Diffusion 文生圖。
![]()
安謀科技當(dāng)天的 IP 應(yīng)用展區(qū)|圖片來源:安謀科技
而新旗艦「周易」X3 則全面展示了其作為「端側(cè)大模型殺手」的實力,現(xiàn)場演示了運行 DeepSeek-R1-Distill-Qwen-1.5B 模型的流暢 AI 對話,以及運行 Stable Diffusion v1.5 的文生圖和 MiniCPM v2.6 的多模態(tài)圖文理解。
這一演進路徑,清晰地表明端側(cè) AI 已從單一的功能感知,邁向了融合多種模型的「復(fù)雜認知」新階段。
具體到應(yīng)用中:
智能汽車領(lǐng)域:這是 X3 的重點目標。它將同時賦能智能駕駛與智能座艙,在 ADAS 系統(tǒng)中為自動泊車等功能提供 AI 算力;在 IVI(車載信息娛樂系統(tǒng))中,則支持基于語音和車內(nèi)外視頻的智能互動。
移動終端領(lǐng)域:在 AI PC 和 AI 手機上,X3 可用于超分渲染(提升顯示效果),并為基于大模型的 AI Agent 應(yīng)用提供澎湃算力。
基礎(chǔ)設(shè)施與物聯(lián)網(wǎng):在加速卡、智能 IPC(網(wǎng)絡(luò)攝像機)、智能網(wǎng)關(guān)等設(shè)備中,X3 的本地 AI 推理能力將帶來更快的響應(yīng)速度和更好的隱私保護。
「周易」X3 的發(fā)布,標志著安謀科技 Arm China「All in AI」產(chǎn)品戰(zhàn)略的正式啟動。在「AI Arm CHINA」的戰(zhàn)略發(fā)展方向下,安謀科技 Arm China 正攜手生態(tài)伙伴,試圖加快構(gòu)建國內(nèi)「AI+」產(chǎn)業(yè)升級的智能計算基石,為千行百業(yè)的智能化轉(zhuǎn)型提供更強的 IP「核芯」動力。
*頭圖來源:安謀科技
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待「周易」X3?
![]()

360 集團創(chuàng)始人周鴻祎:人類的數(shù)據(jù)用的差不多了, AGI 可能沒那么快到來
點贊關(guān)注極客公園視頻號,


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.