網易首頁 > 網易號 > 正文申請入駐

英偉達的最大威脅：谷歌TPU憑啥？

2025-12-26 09:58:29　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

在科技世界，速度往往決定著可能與不可能的界限。

谷歌的 TPU 從最初的概念，到完整部署在數據中心，僅僅用了 15 個月。不到一年半的時間里，團隊將架構設想化為硅片，將計算理論落地為可量產硬件，將軟件工具與硬件緊密結合，使新加速器能夠承載現實工作負載。每一次脈動，每一次數據流動，都見證了工程與創新的極致協作。

TPU 并未止步于首次部署。隨后的每一年，團隊都在不斷迭代：他們提升計算單元的性能，提高內存帶寬以適應日益增長的模型規模；優化能效，使每瓦功耗所能完成的計算量大幅增加；擴展功能，讓 TPU 不僅能執行矩陣乘加運算，還能支持越來越復雜的神經網絡架構和推理任務。每一次迭代都像為系統注入新的脈動，使其更加敏捷、可靠，并能承載更廣泛的工作負載。隨著 TPU 系列版本不斷更新，它逐步成為谷歌深度學習生態的核心基礎設施，從搜索和翻譯，到地圖、街景，再到 AlphaGo 等前沿 AI 項目，無一不依賴這一硬件加速器的力量。

這種持續、逐年的優化不僅體現了硬件設計與工程執行的極致協作，也展示了谷歌將實驗室研究快速轉化為生產力的能力，使 TPU 在現實世界的應用中愈發不可或缺。TPU的故事似乎證明了：

NVIDIA 的GPU也許是第一，但絕不是唯一。

在故事開始之前：一些與TPU（張量處理單元）有關的概念

TensorFlow：谷歌的機器學習框架
谷歌張量處理單元（Tensor Processing Unit，TPU）：谷歌的自定義數據中心加速器
Tensor Core：Nvidia 最新 GPU 中的一個執行單元
谷歌 Tensor：最新的 Pixel 智能手機中的基于 Arm 的系統級芯片

那么什么是張量呢？

在數學中，張量是一種代數對象，它描述了與向量空間相關的一組代數對象之間的多線性關系。張量可以映射不同對象之間的關系，如向量、標量，甚至其他張量。

實際上，我們可以簡化這一定義，幾乎完全依賴于張量的一種表現形式：張量可以表示為一個（可能是多維的）數組。

因此，根據張量的性質，它可以被表示為一個 n 維數組，其中 n 是 0、1、2、3 等等。這些表示形式中的一些有更熟悉的名字：

維度 0 - 標量
維度 1 - 向量
維度 2 - 矩陣

為什么稱之為張量處理單元（TPU）？因為它設計來加速涉及張量的操作。具體來說，是哪些操作呢？我們原始的維基百科定義中提到的操作，將張量描述為“在不同對象之間的映射（多線性關系），如向量、標量，甚至其他張量”。

讓我們舉個簡單的例子。一個二維數組可以描述兩個一維數組之間的多線性關系。數學傾向的人會認識到，這個過程是通過將一個向量乘以一個矩陣來得到另一個向量。

這可以推廣到表示更高維數組之間關系的張量。然而，盡管張量描述了任意高維數組之間的關系，實際上我們將考慮的 TPU 硬件是設計來執行與一維和二維數組相關的計算。或者，更具體地說，向量和矩陣操作。

谷歌TPU的起源：從機器學習到深度學習

要理解 TPU 的誕生，就必須回到谷歌在機器學習與深度學習領域的長期積累。作為一家每天處理數百億次搜索請求、管理全球最大規模信息檢索系統的公司，谷歌自成立起就對機器學習保持高度依賴。其使命是“組織全球信息，使人人皆可訪問并從中受益”，而機器學習正是實現這一使命的核心技術途徑。

在 2000 年代中期，谷歌已經在搜索排序（如 PageRank 的機器學習擴展）、垃圾郵件過濾、推薦系統和廣告點擊率預測（CTR）中大規模應用機器學習模型。

當然，還有在谷歌每年賺取數十億美元的廣告業務中的眾多應用。對谷歌來說，機器學習至關重要。因此，谷歌對機器學習的興趣始于 2000 年代初。隨著時間的推移，公司的關注點開始轉向深度學習。

在深度學習尚未全面興起的年代，谷歌已經意識到大規模機器學習對算力的巨大需求。早期的研究顯示，用通用服務器集群即可支撐相當復雜的模型訓練。例如，在后來被廣泛引用的論文《Building High-level Features Using Large Scale Unsupervised Learning》中，作者記錄了他們如何使用一個由 1,000 臺機器、共 16,000 個 CPU 核心組成的大規模集群，連續運行約三天來訓練論文中的模型。換言之，當時的模型規模尚可通過谷歌既有的數據中心算力“堆出來”，無需依賴任何專用加速芯片。

（論文地址：https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/unsupervised_icml2012.pdf?utm_source=chatgpt.com）

這一結果不僅反映了谷歌早期在機器學習領域投入的規模，也說明在當時的技術背景下，通用硬件依然能夠支撐實驗級別的深度學習研究。然而，隨著模型急速擴張、神經網絡的計算密度不斷提升，這種依賴通用 CPU 集群的方式很快觸及性能與能耗的瓶頸，并最終促使谷歌在幾年后走向專用機器學習加速器（TPU）路線。

到2011年，由 Jeff Dean、Greg Corrado 和 Andrew Ng 主導的深度學習研究項目 Google Brain 最初作為 Google X 內部的探索性計劃啟動。該項目旨在驗證大規模分布式計算能否推動深度神經網絡獲得突破，并由此開啟了谷歌在深度學習方向的系統性研究。

Google Brain 的核心目標是將深度神經網絡與谷歌龐大的計算基礎設施 — 大規模分布式服務器 + 海量數據 — 結合起來，從而訓練、部署此前規模難以企及的神經網絡系統。這個思路的基礎是：與其用傳統、同步、單機／少量機器跑神經網絡，不如充分利用谷歌現成的云／服務器資源，構建“分布式、可擴展”的深度學習平臺。

為實現這一目標，團隊構建了一個名為 DistBelief 的系統 —— 基于谷歌云基礎設施，支持將深度神經網絡分布到成千上萬臺機器上，并通過異步參數更新（asynchronous parameter update）的方式進行訓練。這種設計當時顛覆了主流研究中“同步訓練 + 少量機器 + 高性能單機／GPU”的做法。

使用 DistBelief 系統，在 2012 年左右，Google Brain 曾用“數千臺 CPU／成百上千臺服務器 + 數百萬／數千萬圖像／視頻數據”進行訓練。通過對來自 YouTube 的大量未標注圖像 / 視頻進行無監督學習，他們訓練出的網絡“自發地”學會識別諸如貓、人臉等概念 — 這就是廣為人知的“貓實驗”／“貓論文”（“cat paper”）。

（論文地址：https://arxiv.org/pdf/1112.6209）

使用這個大規模神經網絡，該團隊還顯著提高了標準圖像分類測試的狀態——事實上，我們看到了 70% 的相對準確性改進。通過利用網絡上大量的未標記數據來增強有限的標記數據集來實現這一點。這是該團隊非常關注的一個方向——如何開發能夠很好地擴展的機器學習系統，以便可以利用大量的未標記訓練數據。

這一實驗既證明了深度神經網絡 + 海量數據 + 分布式訓練在無監督／半監督學習上的潛力，也標志著將深度學習從學術研究領域推進到可以影響實際產品／服務的階段。

Google在這段深度學習奮力發展的路上，也逐漸暴露了一個巨大的技術問題：

全部技術都只基于CPU運行。

Cade Metz 的書《天才制造者》回顧了當 Alex Krizhevsky（AlexNet 作者）在 2013 年來到谷歌時，他發現他們現有的模型都在 CPU 上運行。Krizhevsky 需要 GPU，所以他親自解決了這個問題：

在公司的最初幾天，他從當地的電子商店購買了一臺 GPU 機器，把它放在離他的辦公桌不遠的走廊的衣櫥里，將其接入網絡，并開始在這臺獨立的硬件上訓練他的神經網絡。

最終，Krizhevsky 的新同事們意識到，他們需要 GPU，而且是很多 GPU。2014 年，谷歌決定購買大約 40,000 個 NVIDIA GPU，花費約 1.3 億美元。這些 GPU 被用于訓練谷歌業務中使用的深度學習模型。順便說一句，像谷歌這樣的公司購買 40,000 個 GPU 并不會被忽視。如果 NVIDIA 需要一個信號，說明將 GPU 應用于深度學習可能是一個規?？捎^的業務，那么谷歌幾乎可以肯定在 2014 年提供了這個信號。

然而，這些 GPU 并不一定能解決谷歌面臨的最大挑戰。GPU 非常適合訓練谷歌正在開發的深度學習模型，但當需要在全球范圍內大規模部署這些模型時，情況就不同了。比如，語音識別等深度學習應用一旦投入使用，可能會迅速被大量用戶采用，這種潛在的高需求就帶來了巨大的計算壓力。類似地，谷歌的核心產品——搜索服務——每天處理數十億次請求，也面臨著相同的問題：如何以可接受的延遲和能耗水平，將訓練好的模型在全球范圍內高效運行。

谷歌搜索對任何擁有網絡瀏覽器和互聯網連接的人來說都是免費的。這種搜索的質量以及它的免費性，是推動其爆炸性增長和迅速占主導地位的關鍵因素。據估計，到 2023 年，谷歌提供了大約兩萬億次搜索結果。要能夠以這種規模免費提供搜索，谷歌需要能夠非常便宜地提供每一組搜索結果。

谷歌團隊可以預見到使用這些新的深度學習技術構建的一系列服務將會非常受歡迎。谷歌可以利用其品牌，以及將這些服務與其現有廣受歡迎的產品如搜索、Gmail 和 Android 集成，再次使這些服務占據主導地位。

然而，這帶來了一個重大問題。在如此大規模下，這些服務將需要大量額外硬件投入。谷歌團隊在 2013 年設計了一個語音識別示例，用以說明所需計算資源的規模：假設每位用戶每天在 Android 手機上僅使用三分鐘語音輸入，而這些語音又需要通過深度學習在 CPU 上轉換為文本，那么公司將不得不將服務器數量增加兩到三倍，而這些服務器本身已經在處理現有工作負載。這種擴張所需的成本將非常高昂。

一個可行的替代方案是擴大 GPU 的使用，而 NVIDIA 的 GPU 顯然是首選。

到 2013 年，NVIDIA 的 GPU 及其成熟的軟件生態系統已經成為機器學習研究的重要工具，既可用于訓練，也可用于推理。NVIDIA 于 2006 年推出了首款支持通用計算任務的 GPU，而其 CUDA 框架則于 2007 年問世，使得在 GPU 上進行通用計算編程成為可能。更關鍵的是，NVIDIA GPU 可直接購買并部署，這為加速深度學習模型提供了即時可行的硬件選擇。

正如我們所看到的，谷歌確實采購了NVIDIA GPU 并將其部署在數據中心中。然而，依賴 GPU 并不一定是技術上或戰略上的最佳選擇。雖然 GPU 在深度學習所需的矩陣運算和并行計算方面比 CPU 更高效，但它們并非專門為深度學習設計，因此存在潛在的效率損失。在谷歌這種規模下，這些效率損失意味著巨大的成本增加。此外，完全依賴單一供應商提供對公司戰略至關重要的硬件，也會帶來顯著的戰略風險。

接下來，谷歌來到了下一個叉路口：

有兩條可行路徑可供選擇。其一是使用 FPGA，這種可編程邏輯器件能夠執行深度學習所需的專用計算。

其二是設計和構建自家的定制硬件，即特定應用集成電路（ASIC）。與 FPGA 或 GPU 相比，ASIC 可以針對深度學習任務進行專門優化，從而釋放更高的效率潛力，同時減少對單一供應商的依賴。

盡管 FPGA 的性能在某些情況下仍有優勢，但在與 GPU 的對比中很快就顯示出局限性。FPGA 并未完全被淘汰：它們仍在谷歌的數據中心中使用，比 ASIC 提前約六個月投入生產，承擔著一個“清潔管道”的角色，用于驗證和支持所有新加速器在生產環境中的部署流程。

真正的重點是 ASIC。谷歌的目標是開發一種定制芯片，在推理任務中相較 GPU 實現約 10 倍的成本性能優勢。然而，定制硬件的開發需要時間，而時間對該項目至關重要。這不能是一個拖延多年的研究實驗；硬件必須快速交付至谷歌的數據中心，并能夠實現大規模部署。為此，該項目必須充分利用谷歌現有的資源和技術積累，以確?？焖匍_發和高效交付。

15個月的奇跡：TPU登場

一個關鍵問題是：在沒有現成內部團隊的情況下，谷歌如何能快速設計出復雜且具有創新性的硬件？令人驚訝的是，谷歌很快就組建起了一支高效團隊。那么，他們是如何做到的呢？

谷歌本身已有為數據中心設計定制硬件的經驗，因此可以從現有團隊中召集部分成員，參與新項目。然而，公司此前從未自行開發過處理器芯片，因此必須引入擁有相關經驗的新成員。這些新成員大多來自芯片設計和半導體行業，具備設計高性能 ASIC 的專業知識和實踐經驗。通過將內部資源與外部專家相結合，谷歌能夠迅速組建一支既熟悉公司運作，又具備尖端硬件設計能力的跨學科團隊，從而在短時間內推動定制深度學習加速器的研發。

其中一位新成員 Norm Jouppi 回憶道，他是在一次會議上與 Jeff Dean 交談后，被招募加入 TPU 團隊的。他對這一創新的“greenfield”項目產生了濃厚興趣，決定參與其中。加入團隊的其他知名成員還包括 David Patterson（圖靈獎得主），他既是原始 Berkeley RISC 架構的開發者，也是 RISC-V 指令集架構的重要推動者。這些高水平人才的加入，使團隊在硬件設計、指令集架構以及系統優化等方面具備了強大的專業能力，為 TPU 的快速開發奠定了堅實基礎。

谷歌很快組建了一支才華橫溢且經驗豐富的團隊。然而，即便如此，如果他們從零開始設計全新的系統架構，也仍然可能難以在既定時間內實現目標。幸運的是，谷歌能夠借鑒一種已有的架構方法，這一方法早在 TPU 開發之前三十多年就已提出。

在 1978 年的論文 Systolic Arrays (for VLSI) 中，卡內基梅隆大學的 H.T. Kung 和 Charles E. Leiserson 提出了他們所謂的“systolic system（脈動系統）”。這一設計理念為高吞吐量、可并行化的計算提供了理論基礎，使其非常適合深度學習中大規模矩陣運算的實現，并最終為 TPU 架構提供了重要啟發。

（論文地址：

https://www.eecs.harvard.edu/htk/static/files/1978-cmu-cs-report-kung-leiserson.pdf

Systolic system（脈動系統）是一種處理器網絡，它以有節奏的方式執行計算并在系統中傳遞數據。在這種脈動計算機系統中，每個處理器的功能類似于心臟：它們周期性地接收輸入、進行簡短計算，然后輸出數據，以確保網絡中的數據保持連續流動。

Kung 和 Leiserson 隨后將 systolic system 的一個重要應用定位于矩陣計算。許多基本的矩陣運算能夠在具有數組結構的脈動網絡上高效且優雅地進行流水線處理。例如，六邊形連接的處理器陣列可以在執行矩陣計算時實現最優性能。這些脈動陣列具有通信路徑簡單且規則的特點，并且網絡中幾乎所有處理器都是同構的。正因如此，基于脈動陣列的專用硬件能夠利用 VLSI 技術以低成本構建。

作為當時技術環境的一個實例，Kung 和 Leiserson 展示了如何將脈動系統作為 DEC PDP-11 小型計算機的附件來使用，表明這一理念不僅具有理論價值，也可應用于實際硬件系統。

該論文描述了脈動陣列的處理元素可能連接的替代方式。

其中一個提議的安排 - 正交連接 - 與 ILLIAC IV 超級計算機中處理元素的安排產生了共鳴，在 ILLIAC IV 超級計算機：DARPA、SIMD、Fairchild 和 Stanley Kubrick 的'2001'中討論了這一點)。

Kung 和 Leiserson 描述了如何使用六邊形連接的脈動陣列來執行矩陣乘法。

Kung 和 Leiserson 的這項開創性工作在隨后的十年里得到了廣泛研究，并催生了多篇論文，展示了如何使用脈動陣列解決各種計算問題。

那么，脈動陣列是如何工作的呢？基本思想是：數據從數組的一側或多側輸入系統，并隨著每個“脈沖”沿處理器陣列流動，數據和中間結果在每一步被處理。經過足夠的脈沖后，所需的計算完成，結果便從數組的一側或多側輸出。

到 2013 年，Kung 和 Leiserson 當年提出脈動陣列時針對 1970 年代制造技術的原始動機已不再適用。然而，這種方法在矩陣乘法等任務上固有的高效性仍然顯著，尤其是在當時相對較低功耗的前提下。因此，TPU 的設計選擇了采用脈動陣列。

谷歌擁有工程師團隊和成熟的架構方法，但在將概念轉化為實際硅片的能力上仍存在差距。為此，他們與 LSI 公司（現為 Broadcom 的一部分）展開合作。乍看之下，Broadcom 可能并不是典型的機器學習硬件合作伙伴，但它們能夠與制造伙伴如 TSMC 合作，將谷歌的設計轉化為可量產、可大規模部署的芯片。

此外，要讓 TPU 支持實際工作負載，工作不僅限于制造大量芯片。還必須開發配套的軟件，使谷歌現有的深度學習工具能夠在新架構上運行。這意味著全新的指令集架構需要被支持，而編譯器也必須為新架構進行適配——這本身就是一項巨大的工程挑戰。

因此，TPU團隊的目標就變成了：

快速構建硬件
實現高性能
在大規模環境下穩定運行
對新工作負載開箱即用
同時保持成本效益

他們確實實現了快速構建：項目啟動僅 15 個月后，第一款 TPU 就在 2015 年初部署到了谷歌的數據中心。

那么，他們是如何在短短 15 個月內完成這一壯舉的呢？在論文 “In-Datacenter Performance Analysis of a Tensor Processing Unit” 中，總結了一些關鍵因素：

（論文地址：

https://arxiv.org/pdf/1704.04760

盡管我們有時會吹噓 TPU 從項目啟動到部署到數據中心僅用了 15 個月，遠遠短于標準的生產芯片周期，實際情況是谷歌依賴后續 TPU 的設計和優化往往需要多年的迭代?？焖偕鲜械某晒Φ靡嬗趫F隊的單一日程焦點——不僅在架構設計上，例如 700 MHz 的時鐘頻率便于實現時間閉環，以及完全調試的 28nm 工藝，還在于數據中心部署團隊的高效執行和協調。

雖然使用成熟的 28nm 工藝和相對較低的時鐘速率確實幫助縮短了開發周期，但這一切的背后，更關鍵的是谷歌能夠調動所需資源，全力支持這一項目，從而實現快速從概念到部署的轉化。

TPU 很快就在谷歌內部廣泛投入使用。其中一個引人注目的高調示例是 DeepMind 在 AlphaGo Zero 項目中的應用。AlphaGo Zero 是在 2016 年 3 月擊敗世界圍棋冠軍李世石的模型。

AlphaGo Zero 從自我對弈的強化學習中學習，起始于隨機初始化的權重，不依賴人類棋譜指導，也不使用搜索樹展開，僅使用原始棋盤狀態作為輸入特征。令人驚訝的是，它僅使用谷歌云中的一臺機器配備 4 個 TPU，就完成了訓練。

2016 年 AlphaGo Zero 的成功標志著一個重要時刻：以如此有限的硬件實現如此高水平的人工智能成果，展示了 TPU 在大規模深度學習任務中高效、低功耗的潛力，也驗證了谷歌定制加速器設計的實際價值。

像谷歌這樣的公司通常不會公開其數據中心的內部運作細節。因此，TPU 在 2015 年首次部署后一年的時間里仍然保持相對神秘。

直到 2016 年 5 月 18 日，谷歌 CEO Sundar Pichai 在 Google I/O 大會主題演講中首次正式公開宣布：

“我們在數據中心內部署 TPUs 已超過一年，并發現它們在機器學習任務中提供了每瓦性能的數量級提升。”

這一聲明不僅揭示了 TPU 的存在，也向業界展示了谷歌在定制加速器和深度學習硬件上的領先優勢。

這一發布還伴隨著一篇簡短的官方博客，介紹了谷歌如何使用 TPU 定制芯片來增強機器學習任務的計算能力。除了提供一些簡要的技術細節外，博客還展示了 TPU 如何支持谷歌的實際服務。

TPU 已經為谷歌的多項應用提供了動力，包括用于提升搜索結果相關性的 RankBrain，以及用于增強地圖和導航準確性與質量的街景查看（Street View）。在 AlphaGo 與圍棋世界冠軍李世石的比賽中，TPU 為其提供了計算能力，使程序能夠“更快地思考”，并在棋局中規劃更遠的移動。

15個月后：TPU的架構與迭代

正如我們所看到的，TPU v1 團隊采用的方法源自 H.T. Kung 和 Charles E. Leiserson 在 1978 年論文 “Systolic Arrays (for VLSI)” 中首次提出的架構理念。

脈動系統（systolic system）是一種由處理器組成的網絡，這些處理器有節奏地執行計算并傳遞數據。在脈動計算機系統中，每個處理器的功能類似于心臟：它周期性地接收輸入、進行簡短計算，然后輸出結果，從而保持網絡中數據的連續流動。

那么，TPU v1 如何利用脈動方法高效執行矩陣乘法呢？我們可以用一個 2x2 矩陣乘法示例來說明。

假設我們有一個 2x2 的乘法單元（MAC）陣列，這些單元在一個簡單的網格中連接。如果我們按正確順序將矩陣元素輸入到網格中，那么矩陣乘法的結果便會自然從陣列中產生。每個角落的方塊代表一個乘法累加單元（MAC），可以執行乘法和加法操作，從而完成矩陣乘法的流水線處理。

在這張圖中，黃色的值是從頂部和左側輸入矩陣的輸入值。淺藍色的值是存儲的部分和。深藍色的值是最終結果。

讓我們一步步來分析。

第 1 步：值 a11 和 b11 被加載進左上角的乘法/累加單元（MAC）。它們被相乘，結果被存儲。

第 2 步：值 a12 和 b21 被加載進左上角的 MAC。它們被相乘，并加到之前計算的結果上。這給出了結果矩陣的左上角值。與此同時，b11 被傳輸到右上角的 MAC，在那里它與新加載的值 a21 相乘，結果被存儲。同時，a11 被傳輸到左下角的 MAC，在那里它與新加載的值 b12 相乘，結果被存儲。

第 3 步：b21 被傳輸到右上角的 MAC，在那里它與新加載的值 a22 相乘，結果被加到之前存儲的結果上。同時，a12 被傳輸到左下角的 MAC，在那里它與新加載的值 b22 相乘，結果被加到之前存儲的結果上。在這一步中，我們計算了結果矩陣的右上角和左下角值。與此同時，a12 和 b21 被傳輸到右下角的 MAC，在那里它們被相乘，結果被存儲。

第 4 步：最后，a22 和 b22 被傳輸到右下角的 MAC，在那里它們被相乘，結果被加到之前存儲的值上，給出了結果矩陣的右下角值。

因此，矩陣乘法的結果沿著 MAC 矩陣中移動的“對角線”顯現出來。

在我們的示例中，進行 2x2 矩陣乘法需要 4 個步驟，但這僅是因為在計算開始和結束時一些 MAC 沒有被利用。實際上，一旦 MAC 變為空閑，新的矩陣乘法就會從左上角開始。因此，該單元每兩個周期就能完成一次新的矩陣乘法。

這是對脈動陣列工作方式的簡化表示，我們簡要地介紹了 TPU v1 中脈動陣列實現的一些細節。我希望這種架構工作的原理已經清楚。

這是最簡單可能的矩陣乘法，但可以擴展到更大的矩陣和更大的乘法單元陣列。

關鍵點是，如果數據以正確的順序輸入到脈動陣列中，則通過系統的值和結果的流動將確保所需結果隨時間從陣列中出現。沒有必要將中間結果存儲并從“主存儲”區域提取。由于矩陣乘法單元的結構和輸入被輸入到單元的順序，中間結果在需要時自動可用。

當然，矩陣乘法單元不是孤立存在的，整個系統的最簡單呈現如下：

首先要注意的是，TPUv1 依賴于通過 PCIe（高速串行總線）接口與主機計算機的通信。它還可以直接訪問自己的 DDR3 動態 RAM 存儲。

我們可以將其擴展為設計的更詳細展示：

讓我們從這個設計的展示中挑選一些關鍵元素，從頂部開始，大致順時針移動：

DDR3 DRAM / Weight FIFO：權重存儲在通過 DDR3-2133 接口連接到 TPU v1 的 DDR3 RAM 芯片中。權重是從主計算機的內存通過 PCIe 預加載到這些芯片上的，然后可以轉移到“Weight FIFO”內存中，為矩陣乘法單元的使用做好準備。

矩陣乘法單元：這是一個“脈動”陣列，擁有 256 x 256 的矩陣乘法/累加單元，由頂部的 256 個“權重”值和左側的 256 個數據輸入供給。

累加器：結果從脈動矩陣單元的底部出現，并存儲在“累加器”內存存儲中。

激活：在此應用上述神經網絡中描述的激活函數。

統一緩沖區/脈動數據設置：應用激活函數的結果存儲在“統一緩沖區”內存中，準備作為輸入反饋到矩陣乘法單元以計算下一層所需的值。

乘法/累加單元（MACs）

到目前為止，我們還沒有具體說明矩陣乘法單元執行的乘法的性質。TPU v1 執行 8 位 x8 位整數乘法，利用量化來避免對更占用更多硅片面積的浮點計算的需求。

指令集

TPU v1 采用 CISC（復雜指令集計算機）設計，大約只有 20 條指令。值得注意的是，這些指令是由主計算機通過 PCIe 接口發送給它的，而不是從內存中獲取的。

五個關鍵指令如下：

Read_Host_Memory

通過 PCIe 從主計算機的內存讀取輸入值到統一緩沖區。

Read_Weights

從權重內存讀取權重到 Weight FIFO。注意，權重內存將已經通過 PCIe 從計算機的主內存中讀取了權重。

Matrix_Multiply / Convolve

根據論文，這條指令：使矩陣單元執行矩陣乘法或卷積，從統一緩沖區到累加器。矩陣操作接受一個變量大小的 B*256 輸入，將其與一個 256x256 的恒定權重輸入相乘，產生一個 B*256 的輸出，完成 B 流水線周期。這是實現脈動陣列矩陣乘法的指令。它還可以執行卷積計算，這對卷積神經網絡是必需的。

Activate

根據論文，這條指令：執行人工神經元的非線性函數，有 ReLU、Sigmoid 等選項。它的輸入是累加器，輸出是統一緩沖區。如果我們回到我們簡單的神經網絡模型，隱藏層中的值是將“激活函數”應用于輸入的權重乘以輸入的總和的結果。ReLU 和 Sigmoid 是兩種最受歡迎的激活函數。在硬件中實現這些將提供應用激活函數的有用加速。

Write_Host_Memory

通過 PCIe 將結果從統一緩沖區寫入主計算機的內存。

值得暫停一刻，反思這五條指令在提供幾乎完整的 TPU v1 推理實現方面的優雅。在偽代碼中，我們可以大致描述 TPU v1 的操作如下：

Read_Host_Memory

Read_Weights

Loop_Start

Matrix_Multiply

Activate

Loop_End

Write_Host_Memory

強調脈動單元在使這成為可能和高效中的重要性也是有用的。正如 TPU v1 團隊所描述：

矩陣單元使用脈動執行以節省能量，通過減少對統一緩沖區的讀寫....它依靠來自不同方向的數據在數組中的單元以規律間隔到達時被組合。數據從左側流入，權重從頂部加載。給定的 256 元素乘法-累加操作以對角線波前的形式通過矩陣移動。

軟件

沒有軟件支持的 TPU v1 硬件將毫無用處。谷歌開發并使用了 Tensorflow，因此創建“驅動程序”以使 Tensorflow 能夠與 TPU v1 協同工作是主要步驟。

TPU 軟件棧必須與為 CPU 和 GPU 開發的軟件棧兼容，以便應用程序可以快速移植到 TPU。在 TPU 上運行的應用程序的部分通常用 TensorFlow 編寫，并編譯成可以在 GPU 或 TPUs 上運行的 API。

與 GPUs 一樣，TPU 棧分為用戶空間驅動程序和內核驅動程序。內核驅動程序很輕量級，僅處理內存管理和中斷。它設計用于長期穩定。用戶空間驅動程序變化頻繁。它設置和控制 TPU 執行，將數據重新格式化為 TPU 順序，將 API 調用轉換為 TPU 指令，并將它們轉換為應用程序二進制文件。

制造和模具

TPU v1 是由 TSMC 使用相對“成熟”的 28nm TSMC 工藝制造的。谷歌表示，與谷歌此時在其數據中心使用的更先進工藝制造的 Intel Haswell CPU 和 NVIDIA 的 K80 GPU 芯片相比，模具面積不到一半。

我們已經看到了 TPU v1 的指令集有多簡單，只有 20 條 CISC 指令。ISA 的簡單性導致 TPU v1 的模具中用于解碼和相關活動的“開銷”非常低，僅占模具面積的 2%，標記為“控制”。

相比之下，24%的模具面積專用于矩陣乘法單元，29%專用于存儲輸入和中間結果的“統一緩沖區”內存。

性能

此時，回顧一下 TPU v1 旨在使推理——即在谷歌規模的真實世界服務中使用已經訓練好的模型——更高效是有用的。它不旨在提高訓練的速度或效率。盡管推理和訓練有一些共同的特征，但在開發專用硬件時，推理和訓練提供了完全不同的挑戰。

那么 TPU v1 的表現如何呢？

2013 年，TPU v1 的關鍵比較是與 Intel 的 Haswell CPU 和 NVIDIA 的 K80 GPU。

TPU v1 擁有 K80 GPU 的 25 倍 MAC 和 3.5 倍的片上內存。

TPU v1 在推理方面比 K80 GPU 和 Haswell CPU 快大約 15X - 30X。

并且關鍵的是 TPU v1 在能源效率方面遠超 GPU：TPU v1 的相對增量性能/瓦特是 GPU 的 25 到 29 倍。

TPU v1 只是故事的開始。TPU v1 設計得很快，唯一的目標是使推理更快和更節能。它有一些明顯的限制，不是為訓練設計的。不僅谷歌內部，外部公司很快就開始考慮如何改進 TPU v1。

2017年 TPUv2

Google的第二代TPU，定位是服務端AI推理和訓練芯片。

硬件架構

TPUv2的改變

單個向量存儲器，而不是固定功能單元之間的緩沖區。

通用向量單元，而不是固定功能激活管道。

連接矩陣單元作為向量單元的卸載。

將 DRAM 連接到內存系統而不是直接連接到矩陣單元。

轉向 HBM 以獲得帶寬。

添加互連以實現高帶寬擴展。

TPUv2 Core

超長指令字架構：利用已知的編譯器技術。

線性代數ISA：標量、向量和矩陣，為通用性而構建。

TPU 核心：標量單元

322b VLIW 捆綁包：

2 個標量槽

4 個向量槽（2 個用于加載/存儲）

2 個矩陣插槽（推入、彈出）、

1 個雜項插槽

6 個立即數

標量單元執行：

完整的 VLIW 捆綁獲取和解碼

標量槽執行

存儲系統

針對 SRAM 暫存器進行加載和存儲

在核心內提供可預測的調度

可能會因同步標志而停止

可通過異步 DMA 訪問

在同步標志中指示完成

互連器

具有 4 個鏈路的片上路由器

每個鏈路 500 Gbps

組裝成2D環面

軟件視圖：使用 DMA，就像 HBM 一樣；限制推送 DMA；只需定位另一個芯片 ID

2018年：TPUv3

TPU3是對TPU2的溫和重新設計，采用相同的技術，MXU和HBM容量增加了兩倍，時鐘速率、內存帶寬和ICI帶寬增加了1.3倍。TPU3超級計算機還可以擴展到1024個芯片。它的算力進一步提升至 420TFlops，內存達到了 128GB（HBM），并且首次引入了分布式訓練框架，這一創新使得多臺 TPU 可以協同工作，大大提高了訓練效率，能夠應對大規模的深度學習任務。此外，TPU v3 還采用了當時最新的液冷技術，有效解決了芯片在高負載運行時的散熱問題，確保了芯片的穩定性能，為 AI 訓練的大規模應用提供了可能。

功能特性

協同設計：具有軟件可預測性的簡化硬件（例如，VLIW、暫存器）。

使用 bfloat16 脈動陣列計算密度：HBM 為計算提供支持，XLA編譯器。

具有原則性線性代數框架的靈活大數據核心。

2020年： TPUv4i

TPUv4i：Google于2020年發布，定位是服務器端推理芯片.

硬件架構

功能特性

1)單核TPUv4i 用于推理，雙核 TPUv4（可擴展至 4096 個芯片）用于訓練。

2)選擇編譯器兼容性，而不是二進制兼容性。

3)通過通用內存 (CMEM)增加了片上 SRAM 存儲。

4)四維張量 DMA 引擎充當協處理器，可完全解碼和執行 TensorCore DMA 指令。

5)添加了一個共享片上互連 (OCI)，用于連接芯片上的所有組件。

6)引入了四輸入加法器運算單元。

7)時鐘頻率達到 1.05 GHz。

8)2個ICI鏈路鏈接板端4 個芯片。

9)具有廣泛的跟蹤和性能計數器等硬件功能。

2021年：TPUv4

谷歌2020年發布，服務器推理和訓練芯片，芯片數量是TPUv3的四倍。它用了更為先進的 7nm 工藝，晶體管數大幅提升，峰值算力達到了 275TFLOPS ，性能表現全球領先。TPU v4 在內存帶寬和能效比等方面也有了顯著的提升，并且進一步優化了分布式訓練框架，使得其在大規模模型訓練中的表現更加出色。

硬件架構

功能特性

1)通過引入具有光學數據鏈路的光路交換機（OCS）來解決規模和可靠性障礙，允許 4K 節點超級計算機通過重新配置來容忍 1K CPU 主機在 0.1%–1.0% 的時間內不可用。

2)公開了 DLRM（SparseCore 或 SC）中嵌入的硬件支持，DLRM 是自 TPU v2 以來 TPU 的一部分。

3)結合了前兩種功能，為超級計算機規?；ミB的需求添加了全對全通信模式。

同時，TPU v4 還支持 3D 堆疊封裝技術，進一步提高了芯片的集成度和性能，為 AI 芯片的發展開辟了新的道路。

2023年：TPU V5e

Google定制設計、構建和部署 Cloud TPU v5e，以經濟高效地滿足這些不斷增長的計算需求。

成本效益：與 TPU v4 相比，每美元性能提高高達 2.5 倍，推理（Inference）延遲降低高達 1.7 倍。
可擴展：八種 TPU 互連結構支持全系列 LLM 和生成式 AI 模型大小，最多 2 萬億個參數。
多功能：強大的人工智能框架和編程支持。

Cloud TPU v5e 支持對各種模型大小進行推理。單個 v5e 芯片最多可以運行具有 13B 參數的模型（16GB HBM）?？梢曰跀蛋賯€芯片運行具有多達 2 萬億（2000B）參數的模型，支持從BERT到GPT-4量級的不同模型。

在 TPU PodSlice 中，TPU 芯片使用高速互連。每個 TPU 芯片直接與 TPU PodSlice 中的其他區域通信。TPU 軟件會自動將數據分發到 PodSlice 中的每個 TensorCore。這里借用v4的連接結構作為圖示說明。

這一結構看起來有些像NVIDIA GPU的連接架構，但實際上比NVLINK的連接靈活度更高，使用了可重構的MEMS光學連接，也可獲得更大的計算帶寬。

業界有一個傳說，就是本屆的TPU v5e是通過TPU v4，借助AI的力量設計出來的。根據業內傳出的消息，大部分由AI（跑在TPU v4上）做的版圖擺放優于人類專家（26 of 37），此項工作由Google Brain Team和TPU Team共同完成。再結合前段時間使用GPT大模型設計電路的工作看，機器設計機器的時代，似乎在逐漸開啟。

每個 v5e 芯片包含一個 TensorCore。每個 TensorCore 有 4 個矩陣乘法單元 (MMU)、一個向量單元（VU）和一個標量單元（SU），每個單元其實是大量計算電路組成的電路模塊。可支持Training和Inference。

與TPUv4相比，TPU v5e專為大模型和生成式 AI 模型打造，有專用的embedding電路模塊。與前代 TPU v4 相比，每美元訓練性能提升高達 2 倍、每美元推理性能提升高達 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半?？雌饋硭坪跏墙柚鶤I技術，對微架構和電路進行了升級，使得綜合的計算效率更高。

2023年：TPU v5P

以下是TPU v5p的主要功能和亮點：

高效能：TPU v5p采用了先進的制程技術和硬件加速器，實現了更高的計算性能。它能夠更快地處理大規模的張量計算任務，為機器學習和科學計算等領域提供了更強大的支持。TPU v5p 在浮點運算次數和內存帶寬方面分別提升了 2 倍和 3 倍。在大語言模型（LLM）訓練速度上實現了 2.8 倍的代際提升，相較于 TPU v5e 還有約 50% 的進步。
低延遲：TPU v5p采用了低延遲的內存訪問機制，減少了數據傳輸的延遲。這使得TPU v5p能夠更快地響應用戶的請求，提高了整體系統的響應速度。谷歌稱，TPU v5p是其迄今為止最強大的，能夠提供459 teraFLOPS（每秒可執行459萬億次浮點運算）的bfloat16（16位浮點數格式）性能或918 teraOPS（每秒可執行918萬億次整數運算）的Int8（執行8位整數）性能，支持95GB的高帶寬內存，能夠以2.76 TB/s的速度傳輸數據。
兼容性：TPU v5p與現有的硬件和軟件兼容良好。TPU v5p 提供了豐富的API和工具，能夠無縫集成到現有的計算系統中，減少了遷移和升級的成本。同時，TPU v5p還方便開發者進行開發和優化?？梢愿鶕煌男枨筮M行升級，滿足各種規模的 AI 應用。每個 TPU v5p Pod 由多達 8,960 個芯片組成，使用最高帶寬的芯片間連接（每芯片 4,800 Gbps）進行互連，確?？焖賯鬏斔俣群妥罴研阅?。
擴展性：TPU v5p支持橫向和縱向擴展。這意味著用戶可以根據需求增加或減少TPU的數量，以適應不同規模的計算任務。谷歌加強了對流行的機器學習框架（如 JAX、TensorFlow 和 PyTorch）的支持，并提供了開箱即用的功能。此外，TPU v5p 還采用了開放且獨特的多片訓練和多主機推理軟件，使得擴展、訓練和服務工作負載變得簡單且高效。
安全性：TPU v5p具有先進的安全特性。它采用了硬件級的加密和安全機制，保護了用戶的數據和隱私。這使得TPU v5p能夠在安全敏感的應用場景中得到廣泛應用。

2024年：TPUv6（Trillium）

TPUv6的主要的幾個優化點是MXU更大頻率更高，浮點能力基本上到H100，HBM帶寬和容量翻倍換了HBM3，ICI帶寬也升級了。

以下是 Trillium 相對于上一代產品的一些主要改進：訓練效果提高 4 倍以上推理吞吐量提高 3 倍能源效率提高67%每塊芯片的峰值計算性能顯著提升 4.7 倍高帶寬內存 (HBM) 容量加倍芯片間互連 (ICI) 帶寬加倍單個 Jupiter 網絡結構中有 100K 個 Trillium 芯片每美元可將訓練性能提高 2.5 倍，每美元可將推理性能提高 1.4 倍

這些增強功能使 Trillium 能夠在各種 AI 工作負載中表現出色，其中包括：擴展 AI 訓練工作負載訓練 LLM，包括密集模型和混合專家 (MoE) 模型推理性能和收集調度嵌入密集型模型提供訓練和推理性價比讓我們看一下 Trillium 在每種工作負載下的表現。

訓練像 Gemini 2.0 這樣的大型模型需要大量的數據和計算。Trillium的近線性擴展能力可以有效地將工作負載分配到通過 256 芯片艙內的高速芯片間互連和我們最先進的Jupiter 數據中心網絡連接的大量 Trillium 主機上，從而使這些模型的訓練速度顯著加快。這是通過 TPU 多切片和用于大規模訓練的全棧技術實現的，并通過Titanium進一步優化，Titanium 是一個動態數據中心范圍的卸載系統，范圍從主機適配器到網絡結構。 Trillium 通過部署 12 個由 3072 個芯片組成的 pod 實現了 99% 的擴展效率，并通過 24 個 pod（包含 6144 個芯片）對 gpt3-175b 進行預訓練實現了 94% 的擴展效率，即使在跨數據中心網絡運行以預訓練 gpt3-175b 時也是如此。

與前幾代產品相比，Trillium TPU 的擴展效率明顯更高。下圖中，我們的測試表明，與同等規模的 Cloud TPU v5p 集群相比，Trillium 在 12 個 Pod 規模下的擴展效率高達 99%（總峰值浮點運算次數）。

訓練 LLM，包括密集模型和混合專家 (MoE) 模型像 Gemini 這樣的 LLM 本身就很強大且復雜，擁有數十億個參數。訓練如此密集的 LLM 需要巨大的計算能力以及共同設計的軟件優化。與上一代 Cloud TPU v5e 相比，Trillium 為 Llama-2-70b 和 gpt3-175b 等密集 LLM 提供了高達 4 倍的訓練速度。

除了密集的 LLM，使用混合專家 (MoE) 架構訓練 LLM 是一種越來越流行的方法，它結合了多個“專家”神經網絡，每個網絡專門處理 AI 任務的不同方面。與訓練單個整體模型相比，在訓練期間管理和協調這些專家會增加復雜性。與上一代 Cloud TPU v5e 相比，Trillium 為 MoE 模型提供的訓練速度提高了 3.8 倍。

此外，與 Cloud TPU v5e 相比，Trillium TPU 提供了 3 倍的主機動態隨機存取內存 (DRAM)。這將部分計算卸載到主機，有助于在規模上最大限度地提高性能和Goodput。Trillium的主機卸載功能在訓練 Llama-3.1-405B 模型時可將性能提高 50% 以上，以模型 FLOPs 利用率 (MFU) 衡量。

Trillium 代表了 Google Cloud 人工智能基礎架構的重大飛躍，為各種人工智能工作負載提供了令人難以置信的性能、可擴展性和效率。Trillium 能夠使用世界一流的共同設計軟件擴展到數十萬個芯片，讓您能夠更快地實現突破并提供卓越的人工智能解決方案。此外，Trillium 卓越的性價比使其成為尋求最大化人工智能投資價值的組織的經濟實惠的選擇。

2025年：TPU v7（Ironwood）

Google TPU V7，作為 TPU 家族的最新成員，更是集歷代 TPU 技術之大成，實現了全方位的突破。它采用了 3nm 制程工藝，在芯片制造工藝上達到了行業領先水平，為更高的性能和更低的功耗奠定了基礎。在架構設計上，TPU V7 進行了大膽創新，引入了全新的計算核心和互聯技術，使其在性能、內存帶寬、芯片間通信等方面都取得了巨大的飛躍。例如，它支持 FP8 計算，這在 TPU 系列中尚屬首次，能夠在保證計算精度的同時，大大提高計算效率；內存帶寬提升至 7.2 TBps ，是上一代的 4.5 倍，能夠更快地讀取和處理數據，滿足了現代 AI 應用對內存帶寬的高要求；芯片間通信帶寬也有了顯著提升，雙向帶寬達到 1.2 Tbps ，是上一代的 1.5 倍，實現了更快的芯片間通信，促進了大規模高效分布式訓練和推理。

在算力方面，TPU V7 的 FP8 峰值算力高達 4614TFlops ，這一數據相較于 2017 年的第二代 TPU，性能提升了 3600 倍，與 2023 年的第五代 TPU 相比，也有著 10 倍的巨大飛躍。從具體數據來看，第二代 TPU 的算力在當時處于一個基礎水平，而 TPU V7 經過多年的技術迭代，算力實現了指數級增長，成為了 AI 計算領域的強大動力源。與英偉達的 B200 相比，TPU V7 的 FP8 算力為 4614TFlops ，略高于 B200 標稱的 4.5PFlops（4500TFlops），在算力比拼中占據了上風，能夠為大規模的 AI 計算任務提供更強大的計算支持。

內存方面，TPU V7 配備了 192GB 的 HBM3E 顯存，這一容量是上一代的 6 倍，如此巨大的顯存容量，使得它能夠輕松運行萬億參數級別的大模型。在當今 AI 模型不斷向大規模、復雜化發展的趨勢下，大顯存能夠有效減少數據在內存與存儲之間的頻繁交換，提高模型的運行效率。例如，在訓練一些參數規模龐大的語言模型時，充足的顯存可以保證模型在運行過程中能夠快速讀取和處理數據，避免因顯存不足導致的性能瓶頸。與英偉達 B200 的顯存容量相比，雖然具體數值可能因產品版本略有差異，但 TPU V7 的 192GB HBM3E 顯存也具備很強的競爭力，能夠滿足大多數復雜 AI 任務對內存的高需求。

內存帶寬是衡量芯片性能的另一個重要指標，TPU V7 的單芯片內存帶寬提升到了 7.2TBps ，是上一代的 4.5 倍，這意味著它能夠在單位時間內傳輸更多的數據。形象地說，內存帶寬就像是數據傳輸的高速公路，帶寬越高，數據傳輸的速度就越快。以每秒傳輸的數據量來計算，7.2TBps 的帶寬相當于每秒可以傳輸 230 部 4K 電影的數據量，如此高的帶寬能夠確保芯片在處理內存密集型工作負載時，如深度學習中的大規模矩陣運算，能夠快速獲取所需數據，大大提高計算效率。相比之下，英偉達 B200 的內存帶寬為 8TBps ，TPU V7 雖然稍低一點，但差距不大，二者基本處于可對標水平，都代表了當前 AI 芯片內存帶寬的頂尖水平。

TPU V7 的卓越性能，離不開其獨特且創新的架構設計，這些設計在提升性能與能效方面發揮了關鍵作用。

首先是 3D 堆疊技術的應用，TPU V7 通過混合鍵合（Hybrid Bonding）將邏輯層與內存層以 10 微米間距堆疊，這種設計極大地減少了信號延遲和功耗。從物理層面來看，3D 堆疊使得芯片內部的各個組件之間的距離更近，信號傳輸路徑縮短，從而有效降低了信號延遲。在實際應用中，當芯片需要頻繁讀取內存中的數據進行計算時，較短的信號傳輸延遲可以讓數據更快地到達計算單元，提高計算效率。同時，由于減少了芯片間的數據搬運，功耗也降低了 30% ，這在大規模數據中心部署中，能夠顯著降低能源消耗和運營成本。例如，在一個擁有大量 TPU V7 芯片的 AI 計算集群中，功耗的降低意味著可以減少散熱設備的投入和運行成本，同時也更加符合綠色計算的理念。

新型計算核心 FlexCore 也是 TPU V7 架構設計的一大亮點。每個 FlexCore 包含 4096 個 MAC（乘積累加單元），支持 FP32、FP16、BF16、FP8 混合精度計算。這種混合精度的支持，使得芯片能夠根據不同的計算任務需求，靈活選擇最合適的精度模式，在保證計算精度的同時，提高計算效率。比如在一些對精度要求不高的快速推理任務中，可以選擇較低精度的計算模式，加快計算速度；而在對精度要求較高的科學計算或復雜模型訓練中，則可以采用高精度模式。FlexCore 還采用了三級緩存結構（L1/L2/L3），L3 緩存容量達 64MB / 核心，這一設計有效減少了外部內存訪問。緩存就像是一個高速的數據暫存區，當計算單元需要數據時，首先會在緩存中查找，如果能夠找到，就可以避免從外部內存中讀取數據，大大提高了數據訪問速度。此外，FlexCore 還集成了稀疏計算加速器，通過動態稀疏化（Dynamic Sparsity）技術，在訓練中自動屏蔽 80% 零值數據，進一步提升了計算效率。在深度學習模型中，很多參數在計算過程中實際上是零值，這些零值數據的計算會浪費計算資源和時間，動態稀疏化技術能夠自動識別并跳過這些零值數據的計算，使得芯片能夠將計算資源集中在有效數據上，從而提高整體計算效率。

在芯片間通信方面，TPU V7 采用了光互聯（Optical Interconnect）技術，通過在芯片上直接集成激光器和光調制器，實現了硅光子集成，避免了傳統電纜延遲。同時，利用波分復用（WDM）技術，通過不同波長光信號并行傳輸，單鏈路帶寬達 1.6TB/s ，大大提高了通信帶寬。這種光互聯技術使得芯片間通信延遲從第六代的 20 微秒降低到了 5 微秒，減少了 87.5%。在大規模分布式計算中，芯片間的通信效率至關重要，低延遲的通信能夠確保各個芯片之間的協同工作更加高效，避免因通信延遲導致的計算等待時間，從而提高整個集群的計算性能。例如，在訓練超大規模的 AI 模型時，需要多個 TPU V7 芯片協同工作，光互聯技術能夠使得各個芯片之間的數據傳輸更加迅速，實現高效的分布式訓練。

Google TPU V7 強大的硬件性能，離不開與之緊密配合的軟件層面優化，這些優化措施就像是為高性能硬件這把利刃配上了精致的劍鞘，使其能夠發揮出最大的威力。

在編譯器方面，XLA（Accelerated Linear Algebra）編譯器得到了顯著改進。XLA 編譯器專為 TPU 設計，能夠將機器學習模型的計算圖進行優化，從而更高效地在 TPU 上運行。它通過一系列的優化技術，如常量折疊、循環不變代碼外提、死代碼消除等，減少了不必要的計算和內存訪問，提高了計算效率。例如，在處理復雜的神經網絡模型時，XLA 編譯器可以對計算圖進行分析，將一些在編譯時就可以確定結果的計算提前完成，避免在運行時重復計算，從而節省了計算資源和時間。在編譯一個包含大量卷積層和全連接層的圖像識別模型時，XLA 編譯器能夠通過常量折疊優化，將一些固定的卷積核參數在編譯階段就計算出結果，減少了運行時的計算量，使得模型在 TPU V7 上的運行速度提高了 30% 。

分布式訓練框架也得到了升級。隨著 AI 模型規模的不斷增大，分布式訓練變得越來越重要。TPU V7 的分布式訓練框架針對大規模集群進行了優化，能夠實現高效的多節點協同訓練。它通過改進的通信協議和同步機制，減少了節點之間的通信開銷和同步等待時間。在傳統的分布式訓練中，節點之間在進行參數更新時，往往需要花費大量時間進行通信和同步，導致訓練效率低下。而 TPU V7 的分布式訓練框架采用了異步更新和高效的通信壓縮技術，使得節點可以在本地進行更多的計算，減少了與其他節點的通信頻率，同時通過壓縮通信數據的大小，進一步提高了通信速度。在訓練一個萬億參數的語言模型時，使用 TPU V7 的分布式訓練框架，與上一代相比，訓練時間縮短了 40% ，大大提高了訓練效率，使得大規模模型的訓練變得更加可行和高效。

TPU V7 配備了增強版 SparseCore，這是一款專為處理高級排序和推薦工作負載中常見的超大嵌入而設計的數據流處理器。SparseCore 最初是為加速推薦模型而設計的，它利用嵌入技術對不同類別的用戶進行推薦。在實際應用中，推薦系統需要處理海量的用戶數據和物品數據，其中存在大量的稀疏矩陣，傳統的計算方式效率低下。SparseCore 通過硬件加速和優化的算法，能夠快速處理這些稀疏矩陣，提高推薦系統的計算效率。例如，在一個擁有數億用戶和數千萬商品的電商推薦系統中，使用 SparseCore 可以將推薦計算的時間從原來的幾分鐘縮短到幾秒鐘，大大提升了用戶體驗和系統的響應速度。此外，Ironwood 芯片中的第三代 SparseCore 還編碼了各種算法，用于加速金融和科學計算，雖然具體細節尚未透露，但這無疑為 TPU V7 在更多領域的應用拓展了空間。

Pathways 是 Google DeepMind 開發的機器學習運行時，它在 TPU V7 的跨芯片計算中發揮著關鍵作用。Pathways 能夠跨多個 TPU 芯片實現高效的分布式計算，它提供了一種統一的編程模型和運行時環境，使得開發者可以輕松地利用數萬個 TPU 芯片的綜合計算能力。在訓練超大規模的 AI 模型時，需要多個 TPU 芯片協同工作，Pathways 通過優化的任務調度和資源分配算法，能夠將計算任務合理地分配到各個 TPU 芯片上，實現高效的并行計算。它還支持動態資源分配，根據模型的計算需求和 TPU 芯片的負載情況，實時調整資源分配，確保每個芯片都能充分發揮其性能。在訓練一個包含多個 Transformer 模塊的大型語言模型時，Pathways 可以將不同的 Transformer 模塊分配到不同的 TPU 芯片上進行計算，同時協調各個芯片之間的數據傳輸和同步，使得整個訓練過程更加高效和穩定，與傳統的分布式計算框架相比，使用 Pathways 能夠將訓練效率提高 50% 。

在超大規模模型訓練領域，Google TPU V7 展現出了卓越的性能和顯著的優勢。隨著 AI 技術的不斷發展，模型規模呈現出爆發式增長，萬億參數模型已逐漸成為研究和應用的熱點。訓練這些超大規模模型，對計算資源的需求堪稱巨大，不僅需要強大的算力來加速矩陣運算和參數更新，還對內存帶寬和存儲容量有著極高的要求，以確保能夠高效處理海量的數據。

TPU V7 的出現，為超大規模模型訓練帶來了新的曙光。其高達 4614TFlops 的 FP8 峰值算力，能夠在單位時間內完成更多的計算任務，大大縮短了模型訓練的時間。例如，在訓練一個萬億參數的語言模型時，使用 TPU V7 集群進行訓練，與上一代 TPU 相比，訓練時間可以縮短數周甚至數月。這是因為 TPU V7 強大的算力可以更快地完成模型中的矩陣乘法、卷積運算等核心計算任務，使得參數更新的速度大幅提高，從而加速了整個訓練過程。

除了算力，TPU V7 的大內存和高帶寬也為超大規模模型訓練提供了有力支持。192GB 的 HBM3E 顯存，使得模型可以一次性加載更多的參數和數據，減少了數據在內存與存儲之間的頻繁交換，提高了訓練效率。同時，7.2TBps 的單芯片內存帶寬，確保了數據能夠快速地傳輸到計算核心，避免了因數據傳輸瓶頸導致的計算等待時間。在訓練圖像生成模型時，大量的圖像數據需要快速讀取和處理，TPU V7 的高內存帶寬可以保證圖像數據能夠及時傳輸到計算單元進行運算，使得模型能夠更快地學習到圖像的特征，提升訓練效果。

從成本角度來看，TPU V7 也具有明顯的優勢。由于其高效的計算性能和較低的能耗，使用 TPU V7 進行超大規模模型訓練，可以降低對計算資源的需求，從而減少硬件采購成本和數據中心的運營成本。與傳統的 GPU 集群相比，TPU V7 集群在完成相同規模的模型訓練任務時，所需的設備數量更少，能耗更低，這意味著可以節省大量的電力費用和設備維護費用。據估算，使用 TPU V7 進行超大規模模型訓練，成本可以降低 30% - 50% ，這對于大規模的 AI 研究和應用來說，是一筆相當可觀的節省。

在 AI 推理場景中，Google TPU V7 針對混合專家模型（MoE）推理進行了專門優化，展現出了出色的性能。隨著 AI 應用的不斷普及，推理任務在實際應用中的需求日益增長，對推理速度和成本的要求也越來越高。混合專家模型（MoE）作為一種新興的 AI 模型架構，通過將多個專家模型組合在一起，能夠在處理復雜任務時表現出更高的性能和靈活性，但同時也對推理計算提出了更高的要求。

TPU V7 在執行 MoE 推理時，通過硬件和軟件的協同優化，實現了低延遲和低成本的推理過程。從硬件層面來看，TPU V7 的新型計算核心 FlexCore 以及光互聯技術，為 MoE 推理提供了強大的計算能力和高效的通信支持。FlexCore 的混合精度計算能力和稀疏計算加速器，能夠根據 MoE 模型的特點，快速處理大量的稀疏矩陣運算，提高推理效率。光互聯技術則大大降低了芯片間的通信延遲，使得多個 TPU 芯片在協同處理 MoE 推理任務時，能夠實現高效的數據傳輸和同步，減少了推理過程中的等待時間。

在軟件層面，TPU V7 的編譯器和分布式訓練框架也進行了針對性的優化。XLA 編譯器針對 MoE 模型的計算圖進行了深度優化，通過自動并行化和混合精度自動轉換等技術，提高了模型在 TPU 上的運行效率。分布式訓練框架則通過優化任務調度和資源分配算法，實現了 MoE 模型在多個 TPU 芯片上的高效并行推理。在處理一個包含多個專家模型的 MoE 語言模型推理任務時，TPU V7 的分布式訓練框架可以將不同的專家模型分配到不同的 TPU 芯片上進行計算，同時協調各個芯片之間的數據傳輸和同步，使得整個推理過程更加高效和穩定，與傳統的推理框架相比，推理延遲降低了 50% 以上。

這些優化措施使得 TPU V7 在 AI 推理場景中能夠顯著降低推理延遲，提高響應速度。對于實時性要求較高的 AI 應用，如智能客服、智能駕駛等，低延遲的推理至關重要。在智能客服系統中，使用 TPU V7 進行推理，可以快速響應用戶的問題，提供準確的回答，提升用戶體驗。TPU V7 的高效推理性能還能夠降低推理成本。通過提高計算效率和減少硬件資源的浪費，TPU V7 在完成相同推理任務時，所需的計算資源更少，從而降低了硬件采購成本和運行成本。據統計，使用 TPU V7 進行 MoE 推理，與傳統的推理方案相比，成本可以降低 40% 以上，這對于大規模部署 AI 推理應用的企業來說，具有重要的經濟意義。

TPU的快速推出與逐步迭代，似乎證明了：

NVIDIA的GPU也許是第一，但絕不是唯一。

（素材來源于公開文獻和網絡，文章觀點僅供交流討論，不代表任何機構或立場）

（來源：轉自黃大年茶思屋科技網站，作者：齊涵宇，謝謝~）

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4268期內容，歡迎關注。

加星標??第一時間看推送，小號防走丟

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.