網易首頁 > 網易號 > 正文申請入駐

華為清華聯手，研發28nm存內計算芯片

2026-02-26 17:00:30　來源: 芯東西

北京舉報

分享至

論文入選ISSCC 2026。

編譯 | 程茜

編輯 | Panken

芯東西2月26日消息，2月15日-19日，在被業界譽為“芯片設計國際奧林匹克會議”的國際固態電路大會（ISSCC 2026）上，清華大學、華為等大學與公司的研究人員發表論文，首次提出一款基于HYDAR框架的28nm混合存內計算（CiR）芯片的推薦系統（RecSys）加速器。

這款36M RRAM CiR芯片能實現390K QPS的吞吐率與1574K QPS/W能效比。其構建的多芯片系統可實現百萬級實時端到端推薦系統（RecSys）。

▲芯片顯微照片與系統概述

在實際推薦系統任務中，CiR通過擴展至576M規模的多芯片系統，QPS提升了66倍，QPS/W提升181倍，準確率與CPU相當。

▲芯片性能與當前頂尖設計的對比

該芯片的核心優勢包括：采用DL-ADC實現非Top-K計算的早期終止；基于預測的預取調度流水線（PPSP）數據流提升不規則工作負載的吞吐量；由粗到細的檢索架構（coarse-to-fine）在保證系統召回精度的同時，可擴展至大規模應用。

推薦系統中的核心運算單元是相似向量檢索（SVS），該方式通過計算查詢向量與大規模向量庫之間的距離，檢索出Top?K最鄰近向量。

SVS會占據推薦系統絕大部分的計算時間與功耗，主要原因是外部存儲器訪問（EMA）開銷。其中，采用混合鍵合技術的DRAM加速器成本高昂，基于NAND TCAM的加速器存在讀取延遲高、數據與距離表示精度有限等問題。

針對上述痛點，研究人員提出一種基于RRAM的數模混合存內計算加速器HYDAR，可實現高吞吐量、高能效、高精度的SVS。

基于RRAM的存內計算（Compute-in-RRAM，CiR）因能最大限度減少數據移動、存儲密度高、并行度極大，已被公認為深度學習加速的極具前景的技術路線。但將CiR應用于SVS仍會帶來額外挑戰，如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。

▲面向高效推薦系統的、基于CiR的SVS加速器的研究動機與設計挑戰

HYDAR通過CiR PE（存內計算處理單元）、混合芯片設計與多芯片系統架構協同優化，解決了上述挑戰：

首先是帶動態延遲ADC（DL?ADC）的CiR PE，其通過多位模擬CiR PE集成DL?ADC，用于基于直方圖的相似向量檢索，可提前將距離與檢索閾值比較，并跳過非Top?K向量，從而降低延遲與功耗。

其次是基于預測的搶占式調度流水線（PPSP），通過這種混合芯片機制，預測每個PE的運行時間、中斷不平衡任務、插入短任務來平衡負載，以適應動態SVS工作流，提升利用率與吞吐量。

最后是兩步由粗到精的檢索架構，其軟硬件協同設計框架，先在CiR PE上進行粗粒度檢索以保證高吞吐量，再在數字SVS引擎上進行精粒度檢索，在保證召回精度的同時最大化吞吐量。

在此基礎上，基于HYDAR框架，研究人員采用28nm工藝流片實現了一款CiR原型芯片，包含36M RRAM單元，分為16個并行PE，每個PE包含一個288×4096陣列

▲HYDAR整體架構與核心特性及基于CiR的端到端檢索系統

具體來看基于模擬存內計算單元（CiR PE）的直方圖相似向量檢索（SVS）實現，以及支持計算提前終止的DL?ADC設計。

其通過查詢向量與基礎向量之間的距離分布直方圖來確定Top?K檢索的截斷閾值（CK）。在歐氏距離框架下，距離超過CK的基礎向量由雙模DL?ADC過濾，該ADC可動態監測比較結果，實現非Top?K向量的計算提前終止。

歐氏距離計算可在288×4096的CiR陣列上完成，其中每個2T2R單元表示一個4位維度，每一列代表一個256維基礎向量及32維偏置。

本設計中，CiR PE在計算過程中將直方圖存入本地直方圖存儲器，隨后同步至跨PE直方圖單元（CHU），合并分布式結果以生成CK。該論文設計了三條定制指令來執行該流程。

在DL?ADC方面，基于逐次逼近寄存器（SAR）的結構支持提前終止模式（ET），將預生成的CK作為輸入，與每個周期生成的SAR碼一同送入按位比較器。

在迭代調整IDAC以逼近ADC輸入電流的過程中，任何一位不匹配都表明計算結果與CK存在差異，觸發提前終止，停止計算并輸出2位向量掩碼（vMask）。

最后，通過將DL?ADC設置為ET模式，距離計算與過濾可同時執行。

▲基于動態延遲ADC（DL?ADC）的直方圖式SVS的CiR實現

該ET機制在數據庫規模擴大時效果顯著，平均減少60%的計算時間和71%的功耗，宏單元面積開銷增加7%。

其次是面向SVS負載提出的基于預測的搶占式調度流水線（PPSP）。

查詢在不同PE間并行計算，而每個PE參與計算的基礎向量數量通常不同，這會造成計算周期差異與PE間同步開銷，進而引發調度停頓與流水線氣泡。

PPSP采用連續搶占式調度與動態任務調度器（DTS）解決了這一問題。

DTS會對各PE上查詢執行的完成時間戳進行監測與預測。該論文提出的搶占式調度機制允許新任務搶占那些即將完成的正在運行任務，這可以消除流水線氣泡、讓任務更早完成、PE更快釋放，以服務后續查詢。

在接收到指令時，任務會占用一個DTS槽位，并將其PE/段掩碼存入任務表，然后作為子任務路由到目標PE的兩個待處理緩沖區之一。

DTS同時監控每個任務的預測關鍵結束時間（PCET），其定義為所有子任務PET的最大值。其中的仲裁器檢查PE與正在運行任務的重疊情況，如果新任務的PET可以降低且不影響正在運行任務的PCET，則切換待處理緩沖區以搶占式調度新任務，從而提升吞吐量、降低延遲。

此外，在查詢調度期間，DTS會在后端內存分配器中為每個查詢預分配地址空間，使得PE可以直接將結果寫入輸出緩沖區，無需PE間同步，從而實現PE快速釋放以處理新查詢。

▲面向動態SVS負載的、所提出的基于預測的搶占式調度流水線（PPSP）

通過以上優化，PPSP將PE利用率提升至91%，平均查詢延遲降低30%，QPS吞吐量提升1.82倍。

最后是面向SVS、基于CiR的兩步檢索架構。

為提升系統精度，該架構集成了數字精檢索引擎，在高吞吐粗檢索結果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下，仍能保持高召回精度。

該架構還通過多CiR芯片并行擴展了向量庫容量，并支持更廣泛的并行粗檢索，同時采用Thresh?IVF流程與系統流水線，進一步提升吞吐量。

CiR PE分為三類：質心PE（CPE）存儲聚類中心坐標，采樣PE（SPE）存儲從每個聚類中采樣的少量向量，用于表征分布并生成CK；全量庫PE（FPE）存儲所有基礎向量，并全程運行在高能效的DL?ADC提前終止（ET）模式下，在整個流程中占據92.7%的向量存儲。

CiR專用的Thresh?IVF工作流程包括查詢首先送入CPE，通過IT運算計算查詢與聚類中心的距離，識別最近的聚類；系統將查詢路由到所選聚類的SPE，通過IH在多芯片間生成直方圖，進而生成CK；CK被路由到步驟1所確定聚類的所有FPE，通過IC完成粗檢索ID生成。

這種系統級基于閾值的粗檢索，最小化了每個芯片輸出的過濾結果數量，避免了在各芯片上執行相同Top?K計算帶來的冗余ID過濾。最后，少量候選ID被送入數字引擎，以FP16格式進行精檢索，使系統級存儲帶寬需求降低97.44%。

▲兩步由粗到精檢索系統架構與工作流程

該設計實現了系統級四級流水線并行；同時芯片內不同PE也可并行處理不同任務。相較于傳統基于CPU的IVF方案，這種多芯片層級流水線可將延遲降低90.17%。

推薦系統在連接用戶與海量內容和服務方面發揮著至關重要的作用，已廣泛部署于電商和流媒體平臺，但作為其核心運算單元相似向量檢索占據了推薦系統絕大部分的計算時間和功耗。

其中采用混合鍵合技術的DRAM加速器提升了帶寬以緩解EMA問題，但其成本高昂，且仍受限于DRAM與邏輯單元之間的數據傳輸瓶頸；基于NAND TCAM的加速器將計算集成到存儲陣列中以減少EMA，但存在讀取延遲高、數據和距離表示精度有限的問題。

基于此，這篇最新研究提出了一款高效的SVS加速器，能在保證高吞吐量檢索的同時，不犧牲召回精度，進一步降低推薦系統的功耗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

幫高通干翻蘋果后跑路創業？芯片大神：我要用AI重寫CPU規則

雷科技 2026-04-18 10:10:53
20 跟貼 20
既當分析師，又當投資人：這個29歲年輕人，正掌握芯片的話語權

華爾街見聞官方 2026-04-18 11:45:51
0 跟貼 0

從6D全彩芯片到物理AI，禾賽欲再定義激光雷達賽道

經濟觀察報 2026-04-19 00:09:55
0 跟貼 0

90后“稚暉君”，任上緯新材董事長！他是原華為天才少年

每日經濟新聞 2025-11-26 14:49:35
1 跟貼 1
橘子海經紀公司回應華為侵權：手機發布當天才發現

正在新聞 2026-04-17 17:30:14
5 跟貼 5

黃仁勛：中國根本封不住！美國一禁，華為就崛起，中國就越強

網易科技態度見聞 2026-04-16 16:34:33
13 跟貼 13

?華為“最美接待團”：招聘現役空姐負責高端接待！

虔青 2026-04-20 13:17:10
0 跟貼 0
深圳最狠的地方：每隔十年，就親手“殺死”自己一次

飯統戴老板 2026-01-09 17:54:56
0 跟貼 0

百年未有之大變局

長盛投資思維 2026-04-20 07:35:09
0 跟貼 0
前榮耀掌門人趙明談華為智駕水平：我們要超越

快科技 2026-04-18 06:30:21
0 跟貼 0
華為Pura 90系列首發AI姿勢推薦！余承東力薦

快科技 2026-04-15 23:02:17
0 跟貼 0
華為首創隔空開門技術，輕輕揮手車門就開了，走在新能源頂端！

生活哈哈鏡 2026-04-20 11:30:56
4 跟貼 4
華為推出旗下首款女性智能腕表

AING硬跡 2026-04-20 12:28:44
0 跟貼 0
華為擎云亮相全民健康管理大會以科技筑牢主動健康管理數字底座

環球網資訊 2026-04-20 11:49:23
0 跟貼 0
9萬轉一分鐘！造絕對真空的分子泵，芯片制造的核心

講事的少少 2026-04-17 10:28:08
1 跟貼 1
AI芯片被味精廠卡了脖子

戰略企劃槍手說市場 2026-04-19 22:56:46
3 跟貼 3
商場內兩小伙向華為敬禮表支持，手中緊握蘋果手機引路人熱議

爆料視頻 2026-04-20 09:04:13
477 跟貼 477
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
6 跟貼 6
劉亦菲問姚安娜代言華為免費嗎？回復超好笑

命運天注定 2026-04-19 02:24:05
1 跟貼 1
218用三個4表達一個8，多數人沒有思路，華為面試題

我服子佩 2026-04-17 18:08:51
1 跟貼 1
國內首顆車規級融合芯片問世：紅旗1號突破卡脖子技術

快科技 2026-04-18 06:30:25
2 跟貼 2
CPO量產引爆AI算力底層革命，硅光與互連成最大贏家？

華爾街見聞官方 2026-04-18 15:23:26
12 跟貼 12
19歲，常青藤輟學，這群中國年輕人重構了AI記憶

量子位 2026-04-04 16:21:02
0 跟貼 0
印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
15731 跟貼 15731
2026 Q1中國手機出貨量，華為穩居第一，蘋果增速最快

快科技 2026-04-19 10:11:21
22 跟貼 22
視頻掉幀就算了，開車卡頓怎么辦？

科技公元V 2026-04-18 00:53:16
0 跟貼 0
華為汽車遇上比亞迪，一個倒車一個原地掉頭，傷害不大侮辱極強！

斯卡拉生活 2026-04-17 09:07:07
21 跟貼 21
黃仁勛：請從容接受社會的毒打韌性只能在磨練中擁有

每日經濟新聞 2026-01-08 13:50:38
0 跟貼 0
三星停止生產LPDDR4，手機又要漲價

快科技 2026-04-19 10:11:25
0 跟貼 0
玩家網購銳龍9 9950X3D：只收到一個蓋子

快科技 2026-04-17 02:41:12
0 跟貼 0
從001號車主到代言人，把車主調性徹底補全了

汽車大事記 2026-04-20 10:10:14
3 跟貼 3
華為員工住什么房？廣州國企的答案

固件更新中 2026-04-20 13:02:49
0 跟貼 0
缸中之腦現代版：20萬人腦神經元一周學會打Doom

量子位 2026-03-06 17:34:11
0 跟貼 0
要怎么做在未來才有可能成為有錢人？聽聽前華為高管爸爸這番教育

艾米愛手工 2026-04-17 01:47:55
175 跟貼 175
廣汽昊鉑A800試駕體驗華為896線激光雷達加持新豪華憑實力說話

方向對了 2026-04-19 13:35:57
21 跟貼 21
內存不夠用這件事，可能要持續到2030年

機器之心Pro 2026-04-20 10:47:33
0 跟貼 0
智駕世紀對決:華為死磕L3，小鵬直接跳L4

財經網科技 2026-04-19 03:03:13
1 跟貼 1
買房邏輯已變，我們如何應對？

搞笑枇杷 2026-04-20 02:44:58
0 跟貼 0
奕境首款車型命名X9 東風+華為首款旗艦大六座SUV劇透

CNMO科技 2026-04-20 12:24:16
0 跟貼 0
漲價 “續命”、裁員 “增效”，海康威視能起死為生嗎？

鈦媒體APP 2026-04-20 12:48:24
0 跟貼 0

芯東西

專注AI芯片、半導體產業媒體

2285文章數 8153關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

數碼

旅游

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

華為清華聯手，研發28nm存內計算芯片

藍色起源一級火箭完美回收 客戶衛星未入軌

媒體：伊朗剛說不談 美國立即開打

媒體：伊朗剛說不談 美國立即開打

七大獎項候選官宣！文班或全票DPOY

鹿晗生日上熱搜，被關曉彤撕下體面

月之暗面IPO迷局

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

自然慢調 慢享時光

官宣簽約最強城更！海口樓市，突然殺入神秘房企！

華為全新鴻蒙電腦搭載云晰柔光屏，硬件級低藍光，今日下午發布

800年紫藤花開如瀑 最美寧陽四月天

藍色起源一級火箭完美回收客戶衛星未入軌

媒體：伊朗剛說不談美國立即開打

媒體：伊朗剛說不談美國立即開打

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

自然慢調慢享時光

800年紫藤花開如瀑最美寧陽四月天