<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一款開發了8年的芯片:IBM Spyre AI 加速器

      0
      分享至

      公眾號記得加星標??,第一時間看推送不會錯過。

      閱讀前你需要了解的五件事:

      這不是GPU,它也無意成為GPU。Spyre是一款75W單槽PCIe推理卡,專為IBM Z和Power系統設計。

      Spyre 已在系統中投入使用。本概述是對 ISSCC 2026 上詳細技術披露的總結。

      長達八年的研發周期是真實且經過深思熟慮的。IBM在發布量產芯片之前,經歷了五代硅芯片的研發,涵蓋了三個工藝節點。

      最重要的設計限制是缺少輔助電源接口。所有架構決策都源于 PCIe 插槽 75W 的功率限制。

      雙回路電源管理系統是 ISSCC 2026 論文中最引人注目的技術貢獻。它并非營銷噱頭,因為與 IBM 之前使用的單回路方案相比,它確實能帶來可衡量的吞吐量提升。


      IBM 在今年的 ISSCC 大會上發布了其用于推理的 Spyre AI SoC 解決方案,標志著該公司歷時八年的芯片研發工作圓滿完成。Spyre 的概念可以追溯到 2015 年左右,當時 IBM 研究院在走廊里發起了一場關于低精度計算的討論。在大多數業內人士都認為專用推理芯片值得開發之前,Spyre 的首個早期原型已在 2018 年的 VLSI 大會上亮相。

      首款量產芯片是一款 330 平方毫米 5 納米 SoC,擁有 256 億個晶體管,于 2025 年面向 IBM z17 和 LinuxONE 5 上市,Power11 于年底上市。


      機器學習的發展歷程總體上始于2012年的AlexNet,此后的發展軌跡大致平行:一方面是硬件速度的提升和性能的優化,另一方面是模型從卷積神經網絡轉向推薦引擎、嵌入表或Transformer模型。2018年,GPT-2和BERT等模型尚未成為企業級主流模型,業內大多數人認為CPU足以勝任數據中心的大部分推理任務。


      IBM 和其他公司一樣,開始構建自己的測試芯片,以提供更高效的解決方案。最初,Spyre 只是一個內部測試項目(英特爾也做了很多類似的項目),但它似乎標志著 IBM 商業成功的開端,因為它不僅將硬件與自身系統結合使用,還應用于其咨詢業務的后端。

      IBM 開發 Spyre 的真正目的是什么?

      在深入了解 Spyre 芯片本身之前,有必要明確一下這款芯片的實際目標用戶,因為應用場景會影響此類芯片的每一個決策。


      IBM 的大型機客戶包括眾多大型銀行、保險公司和政府機構,它們都在大規模運行關鍵業務交易處理系統。例如,一家大型銀行在處理信用卡欺詐評分時,需要在毫秒內評估每一筆交易,每秒處理數萬筆交易。這些繁重的編碼器級工作負載,主要是 BERT 變體和類似模型,一直是 IBM Z AI 加速的核心,其歷史可以追溯到 Telum 的片上加速器。Telum 和 Spyre 的架構非常相似,因此可以根據延遲或性能需求在兩者之間遷移工作負載。


      Spyre 擴展了 CPU AI 加速功能,增加了對更大更復雜模型的處理能力,并為解碼器類工作負載提供了完善的生成式 AI 支持。這意味著它可以滿足這些工作負載逐個標記的生成需求以及不同的內存要求,而這需要可靠、精確的硬件來跟上。

      Spyre從一開始就面臨著一個關鍵的限制:這款加速器必須能夠集成到IBM Z和Power系統中,而無需專用的電源基礎設施。它只有一個PCIe插槽,沒有輔助接口,并且功耗上限為75W。雖然可以將其與Nvidia的T4或L4系列服務器GPU進行比較,從而了解其設計理念,但Spyre最終在其中占據了截然不同的位置。

      生產前五代硅芯片

      IBM 的 Spyre 開發方法在當前的 AI 行業格局中并不常見。大多數公司從最初的架構到量產芯片的交付周期大約在兩到三年內——尤其是初創公司,通常會很快推出第一代芯片。但 IBM 的演示文稿顯示,他們花了八年時間,開發了五代測試/研究芯片,最終企業部門才決定將其納入產品組合。


      在2018年VLSI大會上展示的14nm半核芯片驗證了可編程數據流架構的概念。隨后在2020年,IBM推出了采用雙核結構的14nm全核芯片。接著,在2021年ISSCC大會上,IBM首次亮相了7nm四核芯片,為IBM提供了跨多個核心的交叉開關帶寬和內存延遲的實際數據。在2024年Hot Chips大會上,IBM展示了一款采用更密集的5nm SoC工藝、具備完整電源管理功能的32核芯片,比量產芯片的上市早了整整兩年。

      從 2024 年 SoC 研究階段過渡到生產階段,比直接從架構設計跳到流片階段風險更低,而這正是關鍵所在。如今架構已具備流片能力,企業團隊得以添加 RAS 功能,使其適用于 IBM 的高性能產品組合。

      Spyre SoC架構

      仔細觀察 Spyre SoC 架構的細節,它有 32 個活躍的 AI 核心,排列成 8x4 的網格,外加兩個用于提高良率的備用核心。


      這意味著理論上,即使制造過程中出現一兩個核心故障,芯片仍然可以作為完整的32核芯片交付。所有32個活動核心通過雙向環形總線連接,整個核心陣列配備64MB片上SRAM。

      每個 AI 核心被拆分為兩個核心單元(corelet),每個核心單元配備 2 MB 的 L1 緩存,并且每個核心單元包含一個 8x8 的二維 SIMD 脈動陣列,該陣列由 64 個低精度數學引擎組成,用于處理大部分矩陣乘法和卷積運算。除了二維陣列之外,還有支持 FP32 的一維向量陣列,用于在低精度格式精度不足時進行激活和歸一化運算。支持的格式包括 FP8、FP16、INT8 和 INT4,涵蓋了現代推理中常用的量化選項,適用于編碼器和解碼器模型類型。



      根據 IBM 的披露,Spyre SoC 的峰值吞吐量為:

      • FP16 排名第 98 位

      • FP8 時獲得 157 個 TOPS 積分

      • INT8 最高分 315 分,

      • INT4 最高分 629 分。

      IBM 將這款芯片與 NVIDIA 的 72W 推理卡 L4 進行了比較。Spyre 在 INT8 下的峰值性能為 315 TOPS,即每瓦 4.2 TOPS,而 L4 在 INT8 下的峰值性能為 242 TOPS,即每瓦 3.4 TOPS。

      IBM 在 ISSCC 2026 上公布的數據更進一步,聲稱其性能比使用編碼器級模型的 GPU 高 2 到 3 倍,盡管這些數據是在 IBM 的特定工作負載上測量的,并且沒有使用可以直接比較的跨基準測試指標。


      接下來是內存子系統,其設計選擇完全受75W功耗限制的制約。雖然HBM內存能夠提供工程師通常所需的帶寬吞吐量,但它功耗過高,且需要更復雜、更昂貴的封裝,這超出了Spyre的預算。IBM最終選擇了LPDDR5內存,它擁有16個通道,運行速度為6.4Gbps,峰值帶寬可達204GB/s,每張卡的總容量為128GB,并且所有可用DRAM都配備了SECDED ECC糾錯保護。8個雙通道LPDDR5內存模塊與SoC并排安裝在PCIe卡上,而不是封裝在SoC的頂部或內部。

      128GB 這個數字在生成式人工智能的討論中也至關重要。相比之下,NVIDIA L4 只有 24GB。


      PCIe 連接采用 Gen5 x16 接口,可提供 64 GB/s 的主機雙向帶寬。值得一提的是 RDMA 引擎,它允許多張 Spyre 卡通過 PCIe 直接相互傳輸數據,無需主機 CPU 參與,從而實現多卡擴展,避免互連成為瓶頸。

      IBM Spyre 如何處理電源管理

      Spyre的雙回路電源管理系統是整體設計中最具技術亮點的部分。人工智能推理工作負載的功耗變化很大,而INT8矩陣乘法會顯著增加電路的功耗和壓力。


      通過采用支持低電壓運行的計算設計,其理念在于最大限度地提高設計效率。對于現代工藝節點而言,計算 IP 的最低電壓僅為 0.55 伏,這確實非常低,幾乎達到了 DSP 甚至比特幣 ASIC 的水平。現代高性能 IP 的最低電壓通常在 0.7 伏到 1.1 伏之間,功耗也隨之增加。設計低 Vmin 電路本身就是一項技術,但其代價通常是較低的峰值頻率。無論如何,此設計的目標都是確保其功耗控制在 75 瓦以內。


      IBM 之前的做法是使用一個閉環 IIR 控制器,當功耗接近耗盡時,該控制器會使 AI 內核停止運行,類似于時間復用或占空比控制。這種方法雖然可行,但其設計較為保守,這意味著節流是基于單一時間常數下的單一設定點。


      Spyre 采用雙環系統完全取代了傳統方法:快速的內環處理短時間內出現的峰值電流尖峰,而較慢的、由軟件控制的外環則根據實際工作負載的實時行為調整平均電流目標。這兩個環路采用不同的時間常數和設定點,使系統能夠在短時間內安全地利用可用功率余量,同時避免在較長的功率窗口內違反平均功率限制。


      根據 IBM 的 ISSCC 2026 數據,結果表明,在相同的功耗預算下,與使用單環控制器相比,推理吞吐量提高了 25%。對于編碼器模型,性能提升幅度在 7% 到 32% 之間,具體取決于序列長度和配置。這并非微不足道的提升,而且完全不需要對芯片進行任何改動。


      在流片之前,IBM 還做出了一些設計決策來降低整體基準功耗。AI 內核陣列本身的工作電壓為 0.55V,而 SRAM 和第三方 IP 模塊的工作電壓為 0.75V。IBM 還做出了一個看似反直覺的選擇,即使用更大的 7T 標準單元庫,而不是密度更高的 6T 單元庫。這是因為測試表明,由于需要額外的緩沖器,6T 單元庫在 0.55V 電壓下實際上消耗的功耗更高。在流片之前,將綜合頻率目標降低了 9%,從而成功降低了 7.5% 的功耗;而重新綜合又分別節省了約 8% 的功耗和 6% 的面積。

      超越單卡擴展

      單張 Spyre 卡即可在其內存預算內輕松處理編碼器工作負載,而大型生成式 AI 模型的情況則截然不同,許多模型在考慮批處理之前,128 GB 的內存容量根本無法滿足需求。IBM 通過基于 RDMA 的多卡擴展技術解決了這個問題。在該技術中,多張卡通過 PCIe 交換機進行通信,從而實現 64 GB/s 的直接卡間 RDMA 傳輸,并采用 CRC 校驗,完全繞過主機 CPU。


      IBM 公布的針對其優化版 Granite-3.3-8B 模型的數據顯示,使用四張 Spyre 卡時性能幾乎呈線性擴展,而增加到八張卡時性能提升更為顯著。隨著卡數的增加,每張卡處理的計算任務量逐漸減少,總內存帶寬隨之提升,首令牌響應時間和令牌間延遲也同步改善。


      滿配的 IBM z17 每個托架最多支持 48 張 Spyre 卡,每個系統最多支持 192 張卡。這意味著主機安全邊界內可容納 6.1 TB 的加速器內存。IBM Power11 每個系統最多支持 16 張卡。目前沒有任何同類 GPU 服務器配置能夠在單個系統中提供 6 TB 的加速器內存,并達到企業級的可靠性和安全性。

      Spyre是什么,它不是什么

      NVIDIA 的高端硬件在最密集的系統中功耗從 700 瓦到 1200 瓦不等。未來,單芯片功耗有望達到數千瓦。例如,將 Spyre 與 TOPS 平臺上的 H100 進行比較,實際上毫無意義。它們的設計環境和限制條件都截然不同。

      相關比較應針對單槽企業級推理卡,因為在這些領域,每瓦功耗下的能效和內存容量比原始吞吐量更為重要。在這個領域,75瓦預算內配備128GB LPDDR5內存,傳輸速率達204GB/s,優勢顯著。NVIDIA擁有多種選擇,而IBM也身處競爭激烈的市場,眾多初創公司,例如Tensordyne、Tenstorrent、d-Matrix、Rebellions、Furiosa、Qualcomm、Taalas、Positron AI等,都推出了功耗從75瓦到300瓦不等的推理專用卡。


      如今的關鍵在于將Transformer工作負載分解為預填充(計算密集型)和解碼(內存帶寬密集型)兩部分。IBM并沒有將Spyre明確歸類到其中任何一部分,這表明對于其工作負載組合而言,它可以作為單卡解決方案。隨著對工作負載分解理解的加深,我們或許會看到這種情況在未來發生改變。

      關于 IBM Spyre 生態系統,

      我們目前了解的情況

      當這款芯片還在從研究芯片過渡到企業產品階段時,IBM 舉辦了關于該產品線未來的演講,其中一些演講將利用 IBM 在制造、生產和系統規模方面的專業知識。


      這是 IBM 的 Mukesh Khare 在 2022 年的照片,我們曾多次采訪過他。照片中他正在展示 AIU,當時它還未更名為 Spyre。第二年,他談到未來幾代產品將著眼于利用更高速度的內存類型,并將多個芯片封裝到單個 SIP 中。目前尚不清楚其目標是否仍然是 PCIe 卡,還是會轉向目前高性能 AI 芯片使用的 OAM 外形尺寸。IBM 最近宣布了一項合作計劃,旨在為其 CPU 啟用 Arm 處理模式,我們有理由推測,Spyre 的訪問權限可能也會包含在其中。

      IBM Spyre SoC:總結性思考

      Spyre 的核心優勢在于其長達 8 年的研發歷程,經歷了 5 代測試芯片、3 個制程節點,并在正式交付客戶之前,基于多年的實際硬件數據進行量產設計。雙回路電源管理系統是一項真正的工程創新,而相比同類單槽產品,其內存容量優勢對于其目標工作負載而言,也是一項切實有效的設計選擇。通過 PCIe 實現跨 IBM Z 和 Power 平臺部署,這一策略明智且執行得相當出色。PCIe 也意味著這些卡可以兼容 x86 和 Arm 架構,盡管 IBM 尚未公開這一應用場景。


      然而,目前尚無法評估的是,運行 IBM Z 和 Power 平臺的企業是否會大規模采用生成式人工智能,以至于 Spyre 的獨特優勢成為此類產品中的決定性因素。IBM 通常對咨詢業務的硬件成本諱莫如深,所以我們可能永遠無法得知答案!

      (來源:編譯自 morethanmoore)

      *免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

      今天是《半導體行業觀察》為您分享的第4379內容,歡迎關注。

      加星標??第一時間看推送

      求推薦

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張泉靈:滿頭白發賭明天,賺下過億身家,卻不敢讓兒子做拔管人

      張泉靈:滿頭白發賭明天,賺下過億身家,卻不敢讓兒子做拔管人

      老屬科普
      2026-04-16 23:01:32
      女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

      女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

      杜鱂手工制作
      2026-04-09 10:54:29
      霍爾木茲海峽,突傳大消息!特朗普發聲!比特幣巨震,超15萬人爆倉

      霍爾木茲海峽,突傳大消息!特朗普發聲!比特幣巨震,超15萬人爆倉

      證券時報e公司
      2026-04-18 18:10:42
      48小時內,俄美伊都對中國提了一個要求,涉及中方主權,必須滿足

      48小時內,俄美伊都對中國提了一個要求,涉及中方主權,必須滿足

      安珈使者啊
      2026-04-17 11:50:45
      錢賺夠了,名聲沒了,謝娜開演唱會迎來全網罵潮,劉燁當初沒說謊

      錢賺夠了,名聲沒了,謝娜開演唱會迎來全網罵潮,劉燁當初沒說謊

      洲洲影視娛評
      2026-04-15 23:09:10
      蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

      蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

      數碼Antenna
      2026-04-16 11:52:53
      俄羅斯發生大巴翻車事故致中國公民2人遇難

      俄羅斯發生大巴翻車事故致中國公民2人遇難

      新京報
      2026-04-18 19:39:07
      住女兒家一個月,女婿住賓館,女兒晚飯在食堂吃,母親:早該醒悟

      住女兒家一個月,女婿住賓館,女兒晚飯在食堂吃,母親:早該醒悟

      拾代談生活
      2026-04-16 16:59:18
      返臺第三天,鄭麗文喊話賴清德,不到24小時,大陸發布統一后安排

      返臺第三天,鄭麗文喊話賴清德,不到24小時,大陸發布統一后安排

      混沌錄
      2026-04-17 20:47:05
      在醫療領域搞新型隱性腐敗,武漢大學中南醫院原院長王行環被“雙開”

      在醫療領域搞新型隱性腐敗,武漢大學中南醫院原院長王行環被“雙開”

      界面新聞
      2026-04-18 09:51:09
      票房破44億只是開始!于和偉、梁朝偉、周潤發要掀起一波新高潮了

      票房破44億只是開始!于和偉、梁朝偉、周潤發要掀起一波新高潮了

      八斗小先生
      2026-04-18 14:57:45
      昨天還在審老虎,今天自己變老虎!貴州這一幕太震撼

      昨天還在審老虎,今天自己變老虎!貴州這一幕太震撼

      墜入二次元的海洋
      2026-04-18 15:40:11
      大快人心!許家印結局已定,3個女人被他連累,才懂白珊珊有多冤

      大快人心!許家印結局已定,3個女人被他連累,才懂白珊珊有多冤

      風信子的花
      2026-04-16 16:37:45
      周總理只是讓他去經商,為黨賺取經費,他卻給組織賺回個商業帝國

      周總理只是讓他去經商,為黨賺取經費,他卻給組織賺回個商業帝國

      鶴羽說個事
      2026-04-02 23:00:01
      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      郭蛹包工頭
      2026-04-17 14:14:44
      星光大道多位冠軍現狀:大多已無人問津,有人負債累累當搬運工

      星光大道多位冠軍現狀:大多已無人問津,有人負債累累當搬運工

      雅兒姐游世界
      2026-04-14 16:52:38
      曝錫安社媒搭訕悉尼妹遭強烈拒絕!多位NBA球星曾示愛美國甜心

      曝錫安社媒搭訕悉尼妹遭強烈拒絕!多位NBA球星曾示愛美國甜心

      Emily說個球
      2026-04-18 13:49:43
      印媒稱:在一項全球領導人最新民調中,莫迪最受歡迎,默茨墊底

      印媒稱:在一項全球領導人最新民調中,莫迪最受歡迎,默茨墊底

      娛樂的宅急便
      2026-04-18 18:38:52
      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      歲月有情1314
      2026-04-07 07:26:46
      CBA最差教練?兩名投手被用廢,從場均19分11分減少到8分2分

      CBA最差教練?兩名投手被用廢,從場均19分11分減少到8分2分

      南海浪花
      2026-04-18 08:50:27
      2026-04-18 21:40:49
      半導體行業觀察 incentive-icons
      半導體行業觀察
      專注觀察全球半導體行業資訊
      13436文章數 34878關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      因壓線被罰 張雪機車征戰WSBK荷蘭站第一回合憾獲第四

      頭條要聞

      因壓線被罰 張雪機車征戰WSBK荷蘭站第一回合憾獲第四

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應潘宏彬去世,拒談喪禮細節

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      本地
      時尚
      數碼
      公開課
      軍事航空

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      選對發型,真的能少走很多變美彎路

      數碼要聞

      今年Q1全球PC出貨微增3.2%,Win10停止支持及漲價前購機為主因

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      解放軍護衛艦與外艦纏斗20小時 細節披露

      無障礙瀏覽 進入關懷版