<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華為清華聯手,研發28nm存內計算芯片

      0
      分享至



      論文入選ISSCC 2026。

      編譯 | 程茜

      編輯 | Panken

      芯東西2月26日消息,2月15日-19日,在被業界譽為“芯片設計國際奧林匹克會議”的國際固態電路大會(ISSCC 2026)上,清華大學、華為等大學與公司的研究人員發表論文,首次提出一款基于HYDAR框架的28nm混合存內計算(CiR)芯片的推薦系統(RecSys)加速器。



      這款36M RRAM CiR芯片能實現390K QPS的吞吐率與1574K QPS/W能效比。其構建的多芯片系統可實現百萬級實時端到端推薦系統(RecSys)。



      ▲芯片顯微照片與系統概述

      在實際推薦系統任務中,CiR通過擴展至576M規模的多芯片系統,QPS提升了66倍,QPS/W提升181倍,準確率與CPU相當



      ▲芯片性能與當前頂尖設計的對比

      該芯片的核心優勢包括:采用DL-ADC實現非Top-K計算的早期終止;基于預測的預取調度流水線(PPSP)數據流提升不規則工作負載的吞吐量;由粗到細的檢索架構(coarse-to-fine)在保證系統召回精度的同時,可擴展至大規模應用。

      推薦系統中的核心運算單元是相似向量檢索(SVS),該方式通過計算查詢向量與大規模向量庫之間的距離,檢索出Top?K最鄰近向量。

      SVS會占據推薦系統絕大部分的計算時間與功耗,主要原因是外部存儲器訪問(EMA)開銷。其中,采用混合鍵合技術的DRAM加速器成本高昂,基于NAND TCAM的加速器存在讀取延遲高、數據與距離表示精度有限等問題。

      針對上述痛點,研究人員提出一種基于RRAM的數模混合存內計算加速器HYDAR,可實現高吞吐量、高能效、高精度的SVS。

      基于RRAM的存內計算(Compute-in-RRAM,CiR)因能最大限度減少數據移動、存儲密度高、并行度極大,已被公認為深度學習加速的極具前景的技術路線。但將CiR應用于SVS仍會帶來額外挑戰,如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。



      ▲面向高效推薦系統的、基于CiR的SVS加速器的研究動機與設計挑戰

      HYDAR通過CiR PE(存內計算處理單元)、混合芯片設計與多芯片系統架構協同優化,解決了上述挑戰:

      首先是帶動態延遲ADC(DL?ADC)的CiR PE,其通過多位模擬CiR PE集成DL?ADC,用于基于直方圖的相似向量檢索,可提前將距離與檢索閾值比較,并跳過非Top?K向量,從而降低延遲與功耗。

      其次是基于預測的搶占式調度流水線(PPSP),通過這種混合芯片機制,預測每個PE的運行時間、中斷不平衡任務、插入短任務來平衡負載,以適應動態SVS工作流,提升利用率與吞吐量。

      最后是兩步由粗到精的檢索架構,其軟硬件協同設計框架,先在CiR PE上進行粗粒度檢索以保證高吞吐量,再在數字SVS引擎上進行精粒度檢索,在保證召回精度的同時最大化吞吐量。

      在此基礎上,基于HYDAR框架,研究人員采用28nm工藝流片實現了一款CiR原型芯片,包含36M RRAM單元,分為16個并行PE,每個PE包含一個288×4096陣列



      ▲HYDAR整體架構與核心特性及基于CiR的端到端檢索系統

      具體來看基于模擬存內計算單元(CiR PE)的直方圖相似向量檢索(SVS)實現,以及支持計算提前終止的DL?ADC設計。

      其通過查詢向量與基礎向量之間的距離分布直方圖來確定Top?K檢索的截斷閾值(CK)。在歐氏距離框架下,距離超過CK的基礎向量由雙模DL?ADC過濾,該ADC可動態監測比較結果,實現非Top?K向量的計算提前終止。

      歐氏距離計算可在288×4096的CiR陣列上完成,其中每個2T2R單元表示一個4位維度,每一列代表一個256維基礎向量及32維偏置。

      本設計中,CiR PE在計算過程中將直方圖存入本地直方圖存儲器,隨后同步至跨PE直方圖單元(CHU),合并分布式結果以生成CK。該論文設計了三條定制指令來執行該流程。

      在DL?ADC方面,基于逐次逼近寄存器(SAR)的結構支持提前終止模式(ET),將預生成的CK作為輸入,與每個周期生成的SAR碼一同送入按位比較器。

      在迭代調整IDAC以逼近ADC輸入電流的過程中,任何一位不匹配都表明計算結果與CK存在差異,觸發提前終止,停止計算并輸出2位向量掩碼(vMask)。

      最后,通過將DL?ADC設置為ET模式,距離計算與過濾可同時執行。



      ▲基于動態延遲ADC(DL?ADC)的直方圖式SVS的CiR實現

      該ET機制在數據庫規模擴大時效果顯著,平均減少60%的計算時間和71%的功耗,宏單元面積開銷增加7%。

      其次是面向SVS負載提出的基于預測的搶占式調度流水線(PPSP)。

      查詢在不同PE間并行計算,而每個PE參與計算的基礎向量數量通常不同,這會造成計算周期差異與PE間同步開銷,進而引發調度停頓與流水線氣泡。

      PPSP采用連續搶占式調度與動態任務調度器(DTS)解決了這一問題。

      DTS會對各PE上查詢執行的完成時間戳進行監測與預測。該論文提出的搶占式調度機制允許新任務搶占那些即將完成的正在運行任務,這可以消除流水線氣泡、讓任務更早完成、PE更快釋放,以服務后續查詢。

      在接收到指令時,任務會占用一個DTS槽位,并將其PE/段掩碼存入任務表,然后作為子任務路由到目標PE的兩個待處理緩沖區之一。

      DTS同時監控每個任務的預測關鍵結束時間(PCET),其定義為所有子任務PET的最大值。其中的仲裁器檢查PE與正在運行任務的重疊情況,如果新任務的PET可以降低且不影響正在運行任務的PCET,則切換待處理緩沖區以搶占式調度新任務,從而提升吞吐量、降低延遲。

      此外,在查詢調度期間,DTS會在后端內存分配器中為每個查詢預分配地址空間,使得PE可以直接將結果寫入輸出緩沖區,無需PE間同步,從而實現PE快速釋放以處理新查詢。



      ▲面向動態SVS負載的、所提出的基于預測的搶占式調度流水線(PPSP)

      通過以上優化,PPSP將PE利用率提升至91%,平均查詢延遲降低30%,QPS吞吐量提升1.82倍。

      最后是面向SVS、基于CiR的兩步檢索架構。

      為提升系統精度,該架構集成了數字精檢索引擎,在高吞吐粗檢索結果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下,仍能保持高召回精度。

      該架構還通過多CiR芯片并行擴展了向量庫容量,并支持更廣泛的并行粗檢索,同時采用Thresh?IVF流程與系統流水線,進一步提升吞吐量。

      CiR PE分為三類:質心PE(CPE)存儲聚類中心坐標,采樣PE(SPE)存儲從每個聚類中采樣的少量向量,用于表征分布并生成CK;全量庫PE(FPE)存儲所有基礎向量,并全程運行在高能效的DL?ADC提前終止(ET)模式下,在整個流程中占據92.7%的向量存儲。

      CiR專用的Thresh?IVF工作流程包括查詢首先送入CPE,通過IT運算計算查詢與聚類中心的距離,識別最近的聚類;系統將查詢路由到所選聚類的SPE,通過IH在多芯片間生成直方圖,進而生成CK;CK被路由到步驟1所確定聚類的所有FPE,通過IC完成粗檢索ID生成。

      這種系統級基于閾值的粗檢索,最小化了每個芯片輸出的過濾結果數量,避免了在各芯片上執行相同Top?K計算帶來的冗余ID過濾。最后,少量候選ID被送入數字引擎,以FP16格式進行精檢索,使系統級存儲帶寬需求降低97.44%。



      ▲兩步由粗到精檢索系統架構與工作流程

      該設計實現了系統級四級流水線并行;同時芯片內不同PE也可并行處理不同任務。相較于傳統基于CPU的IVF方案,這種多芯片層級流水線可將延遲降低90.17%。

      推薦系統在連接用戶與海量內容和服務方面發揮著至關重要的作用,已廣泛部署于電商和流媒體平臺,但作為其核心運算單元相似向量檢索占據了推薦系統絕大部分的計算時間和功耗。

      其中采用混合鍵合技術的DRAM加速器提升了帶寬以緩解EMA問題,但其成本高昂,且仍受限于DRAM與邏輯單元之間的數據傳輸瓶頸;基于NAND TCAM的加速器將計算集成到存儲陣列中以減少EMA,但存在讀取延遲高、數據和距離表示精度有限的問題。

      基于此,這篇最新研究提出了一款高效的SVS加速器,能在保證高吞吐量檢索的同時,不犧牲召回精度,進一步降低推薦系統的功耗。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      中方開始秋后算賬,警告兩大航運公司,不要當美國“幫兇”

      中方開始秋后算賬,警告兩大航運公司,不要當美國“幫兇”

      空天力量
      2026-04-19 17:12:39
      李想把“理想平替”喂成了狼

      李想把“理想平替”喂成了狼

      市象
      2026-04-17 16:42:52
      章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

      章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

      動物奇奇怪怪
      2026-04-20 03:22:27
      133號艦艇編隊為何選擇從這里進入太平洋?專家解讀

      133號艦艇編隊為何選擇從這里進入太平洋?專家解讀

      環球網資訊
      2026-04-20 12:17:06
      黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發現全是錯覺

      黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發現全是錯覺

      顧史
      2026-04-18 09:17:19
      伊朗打響第一槍,特朗普再下通牒,中方擔憂的事情,恐怕越來越近

      伊朗打響第一槍,特朗普再下通牒,中方擔憂的事情,恐怕越來越近

      軍機Talk
      2026-04-20 12:01:43
      中國歷史第5人!楊瀚森季后賽首秀52秒0分 工作室:在場即是成長

      中國歷史第5人!楊瀚森季后賽首秀52秒0分 工作室:在場即是成長

      醉臥浮生
      2026-04-20 11:45:27
      國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

      國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

      21世紀經濟報道
      2026-04-20 06:46:08
      廣州一地現“淘晶熱”,市民稱不少家長帶孩子挖水晶,樹根被刨空、地表坑洼遍地,官方發布告知書明確制止→

      廣州一地現“淘晶熱”,市民稱不少家長帶孩子挖水晶,樹根被刨空、地表坑洼遍地,官方發布告知書明確制止→

      大風新聞
      2026-04-20 11:41:04
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      混沌錄
      2026-04-19 17:27:06
      《我在故宮修文物》導演去世,享年43歲

      《我在故宮修文物》導演去世,享年43歲

      界面新聞
      2026-04-20 12:37:14
      美伊戰事50天 全球“蒸發”了5億桶原油 這相當于……

      美伊戰事50天 全球“蒸發”了5億桶原油 這相當于……

      財聯社
      2026-04-20 10:43:31
      富國銀行:全球經濟已進入第四輪 “貨幣貶值周期” 金價2027年或飆升至8000美元

      富國銀行:全球經濟已進入第四輪 “貨幣貶值周期” 金價2027年或飆升至8000美元

      財聯社
      2026-04-20 10:26:41
      廣東一醫院發生一級甲等醫療事故,家屬申請刑事立案監督

      廣東一醫院發生一級甲等醫療事故,家屬申請刑事立案監督

      醫脈圈
      2026-04-20 12:04:46
      人民日報聯合工信部緊急預警:全體iPhone用戶,請立刻升級系統!

      人民日報聯合工信部緊急預警:全體iPhone用戶,請立刻升級系統!

      小柱解說游戲
      2026-04-19 20:52:59
      世錦賽戰報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

      世錦賽戰報:16強決出5席!中國2勝2負1領先,世界亞軍4-10一輪游

      球場沒跑道
      2026-04-20 05:38:54
      美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

      美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

      新京報
      2026-04-20 10:02:29
      斯諾克名宿:丁俊暉現在比趙心童更強大,聽說他在沒日沒夜的練球

      斯諾克名宿:丁俊暉現在比趙心童更強大,聽說他在沒日沒夜的練球

      楊華評論
      2026-04-20 10:29:47
      28年前失蹤的女老板終于被找到:被謀殺后埋尸天臺花壇28年,嫌疑人改名、變年齡、整容,還主動發短信催警察“還我清白”

      28年前失蹤的女老板終于被找到:被謀殺后埋尸天臺花壇28年,嫌疑人改名、變年齡、整容,還主動發短信催警察“還我清白”

      大風新聞
      2026-04-20 09:25:10
      2026-04-20 13:32:49
      芯東西 incentive-icons
      芯東西
      專注AI芯片、半導體產業媒體
      2285文章數 8153關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      家居
      房產
      數碼
      旅游
      公開課

      家居要聞

      自然慢調 慢享時光

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      數碼要聞

      華為全新鴻蒙電腦搭載云晰柔光屏,硬件級低藍光,今日下午發布

      旅游要聞

      800年紫藤花開如瀑 最美寧陽四月天

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版