<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      IEEE論文:用HBF重塑HBM

      0
      分享至

      SK 海力士近期發表一篇 IEEE 論文,提出一種全新架構:在同一中介層(interposer)上,將高帶寬內存(HBM)的速度高帶寬閃存(HBF)的容量相結合,并直連 GPU,用以加速 AI 大模型與智能體的推理處理。

      目前的 GPU,以及即將推出的英偉達 Rubin 架構,均通過中介層連接 HBM,為 GPU 核心提供高速、高帶寬的數據供給。但隨著 AI 大語言模型(LLM)規模不斷擴大,HBM 容量不足的問題愈發突出,數據不得不從速度更慢的本地 SSD 中調取,顯著拉長了推理耗時。

      HBF 的訪問速度雖慢于 HBM,但遠快于普通本地 SSD,且容量更大。SK 海力士的H3 設計將其與 HBM 置于同一片中介層上,可讓 HBF 充當 HBM 的高速緩存,大幅縮短超大模型的處理時間。

      我們可以這樣理解這一思路:


      框圖展示HBM、HBF 與 GPU 基于中介層的互聯結構

      未來幾代 HBM 會繼續提升容量與帶寬,但遠水難解近渴,無法及時解決當前推理延遲問題 —— 這會讓 GPU 陷入顯存瓶頸(memory-bound),持續等待數據。

      該論文指出,H3 架構非常適合解決推理過程中KV 緩存環節的痛點。AI 模型推理時,會將上下文記憶序列(詞元與向量)以鍵值(KV)緩存的形式存放在 HBM 中。H3 論文提到:


      “最新的 Llama 4 大模型支持最長達
      1000 萬詞元
      的序列長度。

      這一規模需要高達5.4TB 的緩存,“僅存儲這些數據就需要數十張 GPU”。

      英偉達的 ICMSP 軟件可將 KV 緩存擴展至本地 NVMe SSD,相比 HBM 容量耗盡后重新計算詞元與向量,能顯著加快處理速度。

      而 HBF 的優勢在于:將 KV 緩存部署在更靠近 GPU的位置,省去 SSD 經由 PCIe 總線的傳輸延遲,提供比本地 SSD 更低的延遲、更高的帶寬訪問能力。

      論文總結了HBF 的預期優缺點:

      優勢:

      1.容量最高可達 HBM 的16 倍

      2.帶寬與 HBM 接近

      劣勢:

      1.訪問速度更慢(納秒級 vs 微秒級)

      2.寫入壽命更低

      3.功耗最高比 HBM 高4 倍

      由于 HBF 寫入壽命有限(僅約10 萬次擦寫循環),它最適合讀密集型負載。H3 論文摘要明確指出:


      “搭載 H3 的系統,在相同 GPU 數量下,能比純 HBM 系統同時處理更多請求,使其非常適合 LLM 推理中的
      大規模只讀場景
      ,尤其是使用
      共享預計算鍵值緩存
      的場景。

      緩存增強生成(CAG)就是典型的這類負載:


      “當大語言模型接收到查詢時,會讀取龐大的共享預計算 KV 緩存,完成計算后輸出結果。換言之,共享預計算 KV 緩存本質就是
      只讀
      的。

      H3 架構結構詳解


      論文中的示意圖展示了完整設計:

      ·D2D:裸片間直連傳輸

      ·HBM 與 HBF 控制器分別位于各自的基底裸片上

      ·模型權重與共享預計算 KV 緩存存放在HBF

      ·生成式 KV 緩存及其他數據存放在HBM

      為彌補 NAND 閃存延遲較高的問題,設計在 HBM 基底裸片中集成了延遲隱藏緩存(LHB),本質是一種預取緩沖。

      H3 設計思路:GPU 邊緣(周邊)搭載 HBM 堆疊,GPU 與 HBM 均置于中介層上(對應圖 a);HBM 與 HBF 以菊花鏈方式連接。


      “在 HBM 基底裸片內部,通過地址解碼器與路由單元將內存訪問分為兩路:一路訪問 HBM,另一路訪問 HBF。如此一來,GPU 可
      通過
      HBM 基底裸片直接訪問 HBF

      簡單說:HBM 與 HBF 共同作為 GPU 的主存。示意圖中的全局統一編址方案顯示:


      “GPU 主機使用統一地址空間,劃分不同區域分別訪問 HBM 與 HBF?!?/blockquote>
      性能測試數據

      SK 海力士 H3 架構仿真測試環境:英偉達 Blackwell GPU(B200)+ 8 顆 HBM3E 堆疊 + 8 顆 HBF 堆疊。

      性能對比純 HBM 方案:

      ·100 萬詞元場景:吞吐量提升1.25 倍

      ·1000 萬詞元場景:吞吐量提升6.14 倍

      能效表現:相比僅配備 8 顆 HBM、無 HBF 的 Blackwell GPU,每瓦性能提升 2.69 倍

      在 1000 萬詞元 KV 緩存測試中:HBM+HBF 方案可同時處理的查詢數(批次大?。?,是純 HBM 方案的18.8 倍。原本需要 32 張 GPU+HBM 才能完成的負載,借助 HBF 僅需2 張 GPU即可實現,大幅降低功耗。

      文末摘要(論文官方摘要)

      大語言模型(LLM)推理需要海量內存來處理長序列,而高帶寬內存(HBM)的容量限制帶來了巨大挑戰。高帶寬閃存(HBF)是一種基于 NAND 閃存的新型存儲器件,擁有接近 HBM 的帶寬與遠超 HBM 的容量,但同時存在訪問延遲更高、寫入壽命更短、功耗更大等缺點。

      本文提出H3 混合架構,旨在充分發揮 HBM 與 HBF 各自的優勢:將只讀數據存放在 HBF,其他數據存放在 HBM。

      搭載 H3 的系統,在相同 GPU 數量下可處理更多并發請求,非常適合 LLM 推理中大規模只讀場景,尤其是使用共享預計算鍵值緩存的場景。

      仿真結果表明:采用 H3 的 GPU 系統,每瓦吞吐量最高提升 2.69 倍,驗證了 H3 在處理超大只讀數據 LLM 推理時的高性價比。

      西門子EDA直播報名(4月2日)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蒙古為何成為韓國老男人的圣地?帶你去瞧瞧這個可悲的國家

      蒙古為何成為韓國老男人的圣地?帶你去瞧瞧這個可悲的國家

      呂醿極限手工
      2025-12-29 18:33:00
      看完《鏢人》,對塑料古偶應激了!滿屏假頭套的痛,此刻盡數爆發

      看完《鏢人》,對塑料古偶應激了!滿屏假頭套的痛,此刻盡數爆發

      八卦南風
      2026-02-24 16:26:16
      韓“蛇蝎美人”旅館誘殺男子致2死1傷,被捕后漲粉50倍,曾用AI精密策劃殺人步驟

      韓“蛇蝎美人”旅館誘殺男子致2死1傷,被捕后漲粉50倍,曾用AI精密策劃殺人步驟

      紅星新聞
      2026-02-25 13:23:34
      2-3,泰山全華班不敵海牛 王昊斌+彭逸翔進球 鄺兆鐳首秀發揮亮眼

      2-3,泰山全華班不敵海牛 王昊斌+彭逸翔進球 鄺兆鐳首秀發揮亮眼

      替補席看球
      2026-02-25 17:06:14
      曝曼聯同意夏窗500萬出售第一人!奧納納欲回歸,拉爵寧可虧本賣

      曝曼聯同意夏窗500萬出售第一人!奧納納欲回歸,拉爵寧可虧本賣

      羅米的曼聯博客
      2026-02-26 07:29:24
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      雄鹿滅熱火9戰7勝:波特32+7+7近15年隊史唯二后衛 鮑威爾26分

      雄鹿滅熱火9戰7勝:波特32+7+7近15年隊史唯二后衛 鮑威爾26分

      醉臥浮生
      2026-02-25 12:21:41
      《飛馳人生3》破33億,《鏢人》反超《驚蟄無聲》還需幾天?

      《飛馳人生3》破33億,《鏢人》反超《驚蟄無聲》還需幾天?

      情感大頭說說
      2026-02-26 08:10:23
      解放臺灣需要多久?解放軍中將給出準確答案

      解放臺灣需要多久?解放軍中將給出準確答案

      阿七說體育
      2026-02-25 13:19:06
      來了,皇馬!老弗爺欽點,1億“超巨”來投!三大強援或攜手加盟

      來了,皇馬!老弗爺欽點,1億“超巨”來投!三大強援或攜手加盟

      頭狼追球
      2026-02-25 10:24:47
      特朗普著急訪華,苦等4天,中方終于給出回應,提了一個新要求

      特朗普著急訪華,苦等4天,中方終于給出回應,提了一個新要求

      東極妙嚴
      2026-02-25 18:49:12
      末代皇帝:溥儀回到故宮時買了票,發現了自己藏在椅子底下的寶貝

      末代皇帝:溥儀回到故宮時買了票,發現了自己藏在椅子底下的寶貝

      抽象派大師
      2026-01-30 01:04:21
      親手掀翻大唐的是黃巢,江山的得主最后咋是朱溫?

      親手掀翻大唐的是黃巢,江山的得主最后咋是朱溫?

      老達子
      2026-02-26 06:20:03
      即日暫停出口鋰礦,全球第四大生產國官宣!

      即日暫停出口鋰礦,全球第四大生產國官宣!

      華爾街見聞官方
      2026-02-25 18:03:54
      鏢人票房破9億,演技真實排名,有人封神有人被高估,張譯太可惜

      鏢人票房破9億,演技真實排名,有人封神有人被高估,張譯太可惜

      鄉野小珥
      2026-02-25 19:29:49
      美媒:比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

      美媒:比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

      環球網資訊
      2026-02-25 14:04:22
      一覺醒來,全球都在瘋搶稀缺金屬

      一覺醒來,全球都在瘋搶稀缺金屬

      販財局
      2026-02-26 08:28:20
      知名女演員為新劇減重至37公斤!幾乎不進食,每天飲用三升水

      知名女演員為新劇減重至37公斤!幾乎不進食,每天飲用三升水

      不甜的李子
      2026-02-25 23:00:40
      中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

      中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

      后仰大風車
      2026-02-25 20:50:25
      你啥時候意識到錢的重要性?網友:錢能解決85%以上的雞毛蒜皮事

      你啥時候意識到錢的重要性?網友:錢能解決85%以上的雞毛蒜皮事

      帶你感受人間冷暖
      2026-02-23 01:22:30
      2026-02-26 09:04:49
      EETOP半導體社區 incentive-icons
      EETOP半導體社區
      國內著名的電子工程師社區
      7292文章數 15587關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      中方對日方出口管制措施落地后 高市早苗表態了

      頭條要聞

      中方對日方出口管制措施落地后 高市早苗表態了

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      本地
      旅游
      手機
      房產
      公開課

      本地新聞

      津南好·四時總相宜

      旅游要聞

      市花開了!主題公園今年有望啟動

      手機要聞

      三星Galaxy S26系列手機AI功能盤點:升級Bixby,篩選陌生來電

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版