![]()
選自A.I News Hub
機器之心編譯
英偉達的「護城河」正在崩塌?谷歌TPU憑什么讓巨頭們瘋狂倒戈?
谷歌這次要動真格了。
摩根士丹利最新研報透露了一個重磅消息:谷歌 TPU 的產能即將迎來爆炸式增長。更關鍵的是,供應鏈那邊傳來信號,TPU 供應的不確定性基本解決了,這意味著谷歌可以放開手腳對外賣芯片了。
摩根士丹利直接把預測往上猛調,2027 年 TPU 產量將達到 500 萬塊,2028 年更是要沖到 700 萬塊。要知道,之前的預測可是 300 萬塊和 320 萬塊,這波上調幅度分別高達 67% 和 120%。換句話說,未來兩年谷歌要生產 1200 萬塊 TPU,而過去四年加起來才生產了 790 萬塊。
這筆生意有多賺?摩根士丹利給出一個測算,谷歌每賣出 50 萬塊 TPU 芯片,2027 年就能進賬約 130 億美元,每股收益增加 0.40 美元
戰略層面看,谷歌的打法也很明確,直接向第三方數據中心銷售 TPU,作為谷歌云平臺 (GCP) 業務的重要補充。雖然大部分 TPU 仍會用在谷歌自家的 AI 訓練和云服務上,但如此大的產能儲備,顯然是在為更廣泛的商業化做準備。
摩根士丹利認為,這些跡象都是谷歌 TPU 銷售戰略的早期信號。眼下全行業對先進 AI 算力需求爆棚,谷歌顯然不想錯過這波紅利。
受 AI 芯片需求強勁的影響,摩根士丹利順手把聯發科評級上調至「增持」,理由是整個芯片供應鏈都在受益。
英偉達在 AI 芯片市場一家獨大的格局,可能要迎來真正的挑戰者了。

(動圖來自博主賽博軒Albert)
最近,谷歌 TPU 與英偉達 GPU 的技術較量成為業內熱議話題。我們關注到一篇題為《2025 年 AI 推理成本:谷歌 TPU 為何比英偉達 GPU 性能高出 4 倍》的報道,全面解析了兩者的技術差異和性能對比。至于報道中的觀點,僅供參考
以下是機器之心編譯:
在激烈的 AI 霸主之爭中,英偉達長期以來一直穩坐霸主地位。其 GPU 推動了機器學習的爆炸式增長,將抽象的神經網絡變為現實,并打造了一個價值數萬億美元的商業帝國。但隨著 AI 格局的演變,英偉達的「盔甲」也開始出現裂痕。
從模型訓練(英偉達的強項)到推理(即這些模型的實時應用),市場格局正在發生重塑。而引領這場變革的,正是谷歌的張量處理單元(TPU),它帶來的無與倫比的效率和成本優勢,或許將終結英偉達的壟斷地位。
到 2030 年,推理將消耗 75% 的人工智能計算資源,創造一個規模達 2550 億美元的市場,并以每年 19.2% 的速度增長。然而,大多數公司仍然以訓練成本為優化目標。
這并非炒作,而是經濟因素。訓練是一次性的沖刺,而推理則是一場永無止境的馬拉松。隨著像 OpenAI 這樣的公司疲于應對飛漲的推理成本(預計僅 2024 年就將達到 23 億美元,遠超訓練 GPT-4 的 1.5 億美元成本),谷歌的 TPU 憑借其高性價比脫穎而出。在這篇深度分析中,作者將探討 TPU 如何贏得推理之戰,并以行業領導者的實際遷移案例為佐證,同時解釋為何這一轉變預示著英偉達即將走向衰落。
AI 算力的分野:訓練與推理
要了解正在發生的巨大轉變,我們首先必須剖析人工智能計算的兩大支柱:訓練和推理。
![]()
訓練:英偉達的巔峰之作
訓練是將海量數據集輸入神經網絡,以「教會」它們模式、預測和行為的密集型過程。它需要大量的計算資源,需要數千個 GPU 進行并行處理,以完成矩陣乘法和反向傳播等運算。英偉達正是憑借此建立了自己的帝國。其 CUDA 軟件生態系統和 Hopper 架構(例如 H100 GPU)在處理這種高強度計算任務方面表現出色,從而實現了 GPT-4 和穩定擴散等突破性成果。
但訓練是有限的,一旦模型被訓練完成,繁重的工作就停止了。成本是前置的:單次運行可能消耗數百萬 GPU 小時,但它是有限的。對于 GPT-4 來說,這筆一次性賬單達到了 1.5 億美元。英偉達的 GPU 憑借其在圖形、模擬和通用計算方面的多功能性,成為這一階段的首選。到 2023 年,英偉達控制了超過 80% 的 AI 芯片市場,僅數據中心銷售就帶來 600 億美元的收入。
推理:永無止境的錢坑
推理則完全不同。這是部署階段:每次 ChatGPT 查詢、圖像生成或推薦算法都會在新數據上運行已訓練的模型。與訓練不同,推理是持續進行的:處理的每一個 token、每一次用戶交互、每一秒的操作都會產生成本。
接下來,殘酷的數學計算將揭示真相。推理需求并非一次性的,而是隨著使用量的增長而呈指數級增長。OpenAI 2024 年的推理支出飆升至 23 億美元,是 GPT-4 訓練成本的 15 倍。在全球范圍內,隨著 AI 集成到從自動駕駛汽車到個性化廣告等各種應用中,機器學習推理成本正在爆炸式增長。分析師估計,到 2026 年,推理需求將比訓練需求高出 118 倍。到 2030 年,推理計算可能占人工智能總計算量的 75%,從而推動 7 萬億美元的基礎設施投資。
英偉達的 GPU 雖然針對訓練的高吞吐量并行性進行了優化,但在這里表現不佳。它們會消耗大量的電力和內存來處理持續的查詢,導致效率低下。進入推理時代:在未來,每次查詢的成本至關重要。
谷歌的 TPU:專為推理時代而設計
谷歌并非偶然發現了 TPU。它為自身龐大的網絡帝國精心打造了 TPU,為搜索、YouTube 推薦和全球規模的翻譯服務提供強大支持。TPU 于 2016 年推出,是一種專用集成電路(ASIC),專為張量運算而設計,而張量運算正是人工智能的核心數學運算。
架構優勢:為什么 TPU 能碾壓推理
![]()
TPU 在流式陣列中表現出色,這種硬件網格能夠高效地傳輸數據,無需頻繁的內存讀取,從而大幅降低延遲和能耗。而英偉達 GPU 則如同功能強大的瑞士軍刀,能夠即時解碼指令,但這會增加額外的開銷。對于推理任務而言,這意味著在 LLM 等工作負載下,TPU 的性價比是英偉達 H100 的四倍谷歌最新的 Ironwood (v7) TPU 的速度是 v6 的四倍,峰值計算能力是 v5p 的十倍,每一代產品都能帶來 2-3 倍的性價比提升
能效是另一項殺手級優勢。TPU 采用垂直供電設計,在執行搜索查詢時比 GPU 節能 60-65%。在 MLPerf 基準測試中,TPU v5e 在 9 個推理類別中的 8 個類別中領先,例如 BERT 服務等任務的完成速度比 A100 GPU 快 2.8 倍。
價格是決定性因素,按需使用的 TPU v6e 起價為每小時 1.375 美元,簽訂長期合約后可降至每小時 0.55 美元,并且無需支付英偉達的授權費。用戶反饋,一個 v5e 擴展艙相比八個 H100 擴展艙,「價格更低」,性價比更高。
2025 年 AI 芯片對比:TPU 與 GPU 正面交鋒
![]()
英偉達優勢逐漸消失
在純粹的推理領域,英偉達的優勢(靈活性)反而成了劣勢。GPU 雖然能處理各種任務,但在非 AI 操作上卻會浪費大量資源。隨著推理逐漸占據主導地位,像 TPU 這樣的專用 ASIC 芯片正在削弱英偉達的這一優勢。谷歌云的高管們預計,僅 TPU 的采用就能占到英偉達 10% 的收入。英偉達的毛利率高達 70-80%,來自高效競爭對手的價格壓力可能會擠壓其利潤空間。
ASIC 與 GPU 的 AI 之爭:為什么專用芯片主導深度學習推理?
![]()
要理解為什么 TPU 正在瓦解英偉達的霸主地位,我們需要掌握 ASIC(專用集成電路)和 GPU(圖形處理器)之間根本的架構差異。這不僅僅是技術細節的問題,而是決定數十億美元計算支出成敗的關鍵所在。
什么是 ASIC 芯片?它與 GPU 有何不同?
GPU 是通用型處理器。 最初設計用于圖形渲染(因此得名「圖形處理單元」),英偉達利用其并行處理能力,將其重新應用于人工智能領域。像 H100 這樣的 GPU 包含數千個 CUDA 核心,可以處理各種工作負載:游戲、視頻編碼、科學模擬、加密貨幣挖礦,當然還有神經網絡。這種多功能性使 GPU 成為人工智能早期時代的瑞士軍刀。
專用集成電路(ASIC)是專業芯片。它們從一開始就為單一用途而設計, 犧牲靈活性以換取極高的效率。谷歌的 TPU 專為矩陣乘法和張量運算而硬編碼,這是神經網絡的數學基礎。每個晶體管、每條電源軌、每條數據通路都針對一個目標進行優化,以閃電般的速度和最小的能量損耗完成張量運算。
不妨這樣理解,GPU 就像一位多才多藝的運動員,精通多項運動;而 ASIC 則像一位奧運短跑運動員,在某一方面技高一籌。對于需要 24??7??365 全天候運行的推理工作負載,你需要的是這位短跑運動員。
ASIC 優勢:為什么專業化能夠規模化制勝?
能效方面: ASIC 芯片消除了指令解碼的開銷。GPU 動態地獲取、解碼和執行指令,消耗大量周期和電力。TPU 則在硬件中執行固定操作,在相同工作負載下能耗降低 60-65%。在數據中心規模下,這意味著節省數百萬美元的電力成本并減少冷卻基礎設施。
降低延遲: TPU 中的脈動陣列可創建確定性的數據流,信息在芯片內同步流動,如同精心編排的裝配線,而 GPU 依賴于具有不可預測訪問模式的內存層次結構(L1/L2 緩存、HBM),從而引入延遲峰值。對于實時推理(聊天機器人、自動駕駛汽車、金融交易)而言,毫秒級的延遲至關重要。
每次操作成本: ASIC 通過去除未使用的電路,以更少的投入提供更高的計算能力。在 Transformer 型號上,TPU 的每美元性能是 H100 的四倍,因為每一平方毫米的硅片都物盡其用。GPU 則承載著諸多冗余:紋理單元、光柵化操作、顯示控制器等等,所有這些在 AI 推理期間都處于閑置狀態。
可擴展性: ASIC 可以緊密集成到定制系統中。谷歌的 TPU pod 通過定制互連連接 4096 個芯片,實現了 PCIe 受限 GPU 無法實現的近乎線性的擴展。這種架構上的自由度使超大規模數據中心能夠構建完全符合自身需求的推理集群。
權衡取舍:靈活性與效率
ASIC 芯片并非萬能,它們的專用性也是它們的局限性。訓練新的模型架構、嘗試新的層或運行非 AI 工作負載都需要 GPU 的靈活性。因此,未來并非「ASIC vs GPU」之爭,而是戰略部署:GPU 用于研究和訓練,ASIC 用于生產推理
新興的 ASIC 芯片格局: 除了 TPU 之外,亞馬遜的 Trainium、微軟的 Maia 以及 Cerebras 和 Groq 等初創公司正以各種專用芯片涌入市場。每款芯片都針對特定的細分領域(LLM 推理、訓練、稀疏模型),從而打破了曾經由英偉達統一的 CUDA 王國。
結論是什么?對于以推理為主導的未來(到 2030 年將占計算總量的 75%),ASIC 芯片不僅具有競爭力,而且勢在必行。物理定律決定了這一點:大規模專業化是無法超越的。英偉達深諳此道,因此大力推進像 Blackwell 這樣針對推理優化的架構,但他們試圖讓一把瑞士軍刀比手術刀更鋒利。
現實世界的勝利:AI 巨頭押注 TPU
遷移案例就是最好的證明。全球頂尖的人工智能運營商正在放棄英偉達處理器,轉而使用 TPU,從而大幅降低成本,并以前所未有的方式擴展推理能力。
Midjourney 的 65% 成本削減
圖像生成器 Midjourney 曾是 GPU 的主力軍,但在 2024 年轉向 TPU 后,便再也沒有回頭。推理成本驟降 65%,從每月 200 萬美元降至 70 萬美元。根據 Cohere 的類似基準測試,使用 TPU v6e 后,生成任務的吞吐量提升了 3 倍。「TPU 在推理工作負載方面的經濟效益」被證明具有變革性意義,釋放了研發資金。
Anthropic 的百萬 TPU 登月計劃
Claude 的開發商 Anthropic 公司與谷歌達成了一項價值數百億美元的交易,承諾提供多達一百萬個 TPU。到 2026 年,這將釋放超過 1GW 的計算容量,并將 TPU 與亞馬遜 Trainium 和英偉達的相結合,構建多元化的技術棧。首席執行官 Thomas Kurian 表示,「卓越的性價比和效率」是促成此次交易的關鍵因素。自 2023 年以來,TPU 一直為 Claude 提供計算動力。
Meta 的數十億美元轉向
Meta 是英偉達最大的客戶(計劃 2025 年支出 720 億美元),目前正就一項價值數十億美元的 TPU 部署進行深入洽談。Meta 計劃從 2026 年通過谷歌云租賃 TPU 開始,并計劃在 2027 年之前部署本地 TPU,用于 Llama 微調等需要大量張量的工作負載。這種混合策略(英偉達提供靈活性,TPU 提供效率)預示著更廣泛的資源遷移趨勢。
這些并非個例。Salesforce 和 Cohere 都實現了 3 倍的增長,谷歌的 Gemini 運行在數萬個 TPU 上。那些精明的運營商紛紛拋售英偉達的溢價產品,轉而選擇谷歌的性價比更高的產品。
何時選擇 TPU 與英偉達顯卡:AI 基礎設施的決策矩陣
![]()
選擇 TPU 還是英偉達 GPU 并非非此即彼。這取決于您的工作負載、規模和基礎架構策略。以下是一個基于實際部署的實用框架:
如果您符合以下條件,請選擇 TPU:
成本閾值: 推理成本超過每月 5 萬美元。在此規模下,TPU 節省的成本(40-65%)足以抵消遷移帶來的額外開銷。
工作負載適用性: 大規模運行 LLM 服務、推薦系統、圖像生成或視頻處理。這些張量密集型操作正是 TPU 的優勢所在。
云平臺部署: 熟悉 Google Cloud 生態系統或愿意采用 TensorFlow/JAX 框架。
可持續發展目標: 環境和能源效率是重中之重。TPU 的功耗比同等 GPU 配置低 60-65%,這對實現 ESG 目標至關重要。
可預測的擴展: 具有一致流量模式的大容量生產推理,而不是實驗性研究。
如果您需要以下功能,請選擇英偉達顯卡:
訓練靈活性: 構建自定義架構、多模態模型,或進行需要 CUDA 特定庫和工具鏈的研究。
多云戰略: 要求硬件能夠在 AWS、Azure 和本地數據中心之間移植,且不受供應商鎖定。
多樣化的工作負載: 除了機器學習任務外,還可以運行圖形渲染、模擬、游戲或非人工智能計算。
預算限制: 每月 AI 計算預算低于 2 萬美元。設置開銷和遷移成本使得 TPU 在小規模應用中不太劃算。
前沿模型: 嘗試使用尚未針對 TPU 編譯進行優化或需要自定義內核的架構。
混合戰略:企業行動指南
遵循 Meta 的模式:部署 Nvidia H100 用于訓練、實驗和模型開發,使用 TPU v6e/v7 進行生產推理服務。這種模式兼顧了靈活性和成本優化,在保持研究靈活性的同時,可節省 40-50% 的總計算資源。
實施時間表: 大規模 TPU 遷移預計需要 2-6 個月,包括代碼庫適配、測試和流量逐步轉移。像 Midjourney 這樣的公司通過降低成本,在 3-4 個月內即可實現投資回報。
未被定價的未來:推理的 75% 愿景與大規模 AI 的隱性成本
沒人真正定價的是什么?推理的規模是無限的。訓練只是一個里程碑,推理才是經濟的命脈。每一次查詢(每天數十億次)都會持續增加成本。OpenAI 23 億美元的賬單,那只是 2024 年的費用;如果規模擴大到 2030 年占據 75% 的市場份額,那將是數萬億美元。
預測結果描繪出一幅鮮明的畫面:
市場增長: 到 2030 年,人工智能推理市場規模將達到 2550 億美元,復合年增長率達 19.2%。這將遠遠超過訓練市場,后者隨著基礎模型的成熟而趨于平穩。
能源危機: 用于前沿模型的 5GW 集群,堪比小國的電網。隨著推理集群的擴張,數據中心面臨容量限制。
成本倍數: 訓練基線成本為 15 倍,但實際使用量會進一步推高成本。每增加一個用戶、每增加一項功能、每次實時交互都會增加費用。
總擁有成本 (TCO): 除了硬件成本外,還要考慮冷卻、電力基礎設施和碳信用額度。如果將這些運營成本考慮在內,TPU 的效率優勢將提升至 2-3 倍。
未解決的問題:環境代價。推理的排放量可能遠超訓練。僅 ChatGPT 每年就排放 12800 公噸二氧化碳,是 GPT-3 訓練的 25 倍。TPU 的效率(比上一代高出 15 倍)使谷歌成為可持續發展的選擇,這在監管日益嚴格的今天至關重要。
深度學習推理優化的挑戰不僅僅是技術性的,更是關乎企業生存的。忽視這一轉變的公司將面臨成本結構失衡的風險,導致無法大規模盈利。
對利益相關者的意義:TPU 革命的連鎖反應
![]()
TPU 與 GPU 之爭并非抽象概念,它重塑了整個商業模式、投資理念和職業發展軌跡。以下是不同參與者應該如何應對。
對于 AI 初創公司:大均衡化
TPU 降低了推理成本,使精簡團隊也能與巨頭競爭。Midjourney 節省了 65% 的成本,從而延長了資金使用周期并加快了擴展速度。種子輪公司如果使用 TPU 進行推理,就能實現以往只有擁有巨額 GPU 預算的 B 輪及以后融資階段的公司才能達到的成本結構。
審核您的推理費用。如果您每月在英偉達顯卡上的支出超過 2 萬美元,請開展 TPU 試點項目。TensorFlow 模型優化和 JAX 等工具可使遷移過程比以往任何時候都更加順暢。
對于企業 CTO:戰略必要性
15 倍的推理成本倍增效應要求我們現在就做出戰略性的硬件選擇,而不是以后。到 2026 年,將高容量推理遷移到 TPU 可以節省 40-60% 的計算預算,從而將資金用于創新而不是基礎設施建設。
隱藏的好處: TPU 的低功耗可降低數據中心冷卻成本 30-40%,同時滿足預算和可持續性要求。
風險: 行動遲緩意味著競爭對手將獲得成本優勢,而且這種優勢會逐季度累積。例如,競爭對手每年在推理方面節省 500 萬美元,并將其重新投入到更優的模型中,從而導致差距不斷擴大。
對于英偉達投資者:利潤率壓縮的威脅
盡管英偉達 2024 年數據中心業務營收預計將達到 600 億美元,但 TPU 的普及應用卻帶來了長期的利潤風險。如果谷歌能夠占據哪怕 10% 的推理工作負載(考慮到目前的遷移情況,這還是保守估計),那么每年英偉達的利潤就將面臨超過 60 億美元的損失。
對位: 英偉達的 Blackwell 架構 (預計 2025 年發布)承諾提升推理效率。然而,早期基準測試表明,在純粹的大規模推理方面,TPU 仍保持著 2-3 倍的成本優勢,這限制了 Blackwell 的影響。
密切關注英偉達 2026 年第一季度財報。如果推理驅動的收入環比增長放緩至 15% 以下,則表明 TPU 蠶食效應確實存在。
對于開發者和機器學習工程師:職業未來保障
CUDA 生態系統長達 15 年的護城河正在逐漸消失。隨著 JAX、TensorFlow 和 TPU 優化技術的普及,學習這些技術能夠確保職業發展的未來競爭力。2024 年,「TPU 優化工程師」的職位發布量同比增長了 340%。
技能轉變: 從通用 GPU 編程轉向 ASIC 感知模型設計。理解脈動陣列的編譯器優化,其價值堪比 2020 年的 CUDA 內核調優。
機遇: 早期 TPU 專業知識可獲得 20-30% 的薪資溢價,因為公司都在爭相尋找人才來執行遷移。
華爾街的英偉達大撤退:為何精英投資者拋售 60 億美元 GPU 股票
![]()
隨著推理革命的加速,英偉達曾經不可撼動的統治地位正面臨著華爾街最敏銳的投資者們的嚴峻現實檢驗,他們正悄然退出市場。
科技遠見家彼得?蒂爾 (Peter Thiel) 旗下的對沖基金 Thiel Macro LLC 在 2025 年第三季度拋售了其持有的全部 537742 股英偉達股票(截至 9 月底,價值約 1 億美元),并將所得資金重新投資于蘋果和微軟等更具防御性的股票,以應對日益增長的人工智能泡沫破裂的擔憂。
這并非孤例。就在幾周前,日本軟銀也拋售了其持有的全部 3210 萬股股票,套現高達 58.3 億美元,并將資金投入 OpenAI,以期從硬件炒作轉向軟件生態系統。就連預言了 2008 年金融危機的《大空頭》預言家邁克爾?伯里,也在 2025 年末斥資 920 萬美元買入了針對英偉達的看跌期權,押注隨著 Meta 和 Oracle 等超大規模數據中心運營商面臨數據中心過剩和 GPU 庫存貶值的問題,英偉達的估值將會暴跌。
這些精英投資者并非放棄人工智能。他們只是在拋售英偉達高達 70 倍預期市盈率的股票,因為谷歌 TPU 的競爭日益激烈,以及隨著訓練階段的輝煌逐漸褪去,推理成本不斷攀升侵蝕利潤率的擔憂令他們感到不安。盡管英偉達盈利強勁,但其股價仍較 10 月份的高點下跌了 12%,機構投資者的資金外流也反映了科技行業的整體焦慮情緒。
這波超過 60 億美元的資金外流凸顯了一個殘酷的現實:當推理運算的結果對 ASIC 芯片比對 GPU 芯片更有利時,即使是人工智能領域的巨頭也不得不屈服于謹慎的資本外逃浪潮。
解碼拋售潮:精明投資者看到的三個危險信號
供應過剩和貶值: 超大規模數據中心在 2023-2024 年間大量購入 H100 顯卡,為訓練數據激增而擴容,但這些激增并未完全實現。如今,數據中心使用的資產正在貶值(GPU 價值每年下降 30-40%),而推理需求卻需要更便宜的 ASIC 芯片。這種供需不匹配令那些預期 GPU 將持續升級的成長型投資者感到恐慌。
利潤率即將壓縮: TPU 將主導推理任務(未來 75% 的計算量),這意味著英偉達必須在價格上展開競爭。其 70-80% 的毛利率將面臨不可避免的擠壓。即使毛利率下降 10 個百分點,也會使目前的估值倍數大幅下滑。
多元化現實: 像 Meta 這樣的客戶并沒有完全放棄英偉達,但他們正在積極進行多元化投資。客戶在 TPU 上的每一美元支出,都意味著英偉達少賺一美元。隨著 Meta、Anthropic 和 Midjourney 等公司公開擁抱替代方案,英偉達的收入集中度風險已變得岌岌可危。
當然也有不同觀點,英偉達仍然占據 80% 的市場份額,布萊克威爾即將加入,CUDA 的護城河也不會在一夜之間崩塌。
挑戰與未來之路
TPU 并非完美無缺。與英偉達的 CUDA 通用性相比,其生態系統與 TensorFlow/JAX 的緊密聯系限制了靈活性。擴展 TPU(最多可達 4096 個芯片)需要 Google Cloud 的投入,而本地部署的 TPU 市場尚處于起步階段,混合架構將會持續存在:Nvidia 用于訓練的極端情況,TPU 用于推理的大規模應用。
新興競爭: 亞馬遜的 Trainium 和微軟的 Maia 芯片瞄準相似的細分市場,加劇了 ASIC 市場的碎片化。然而,這兩款芯片的成熟度(已發展九代)和規模(為谷歌的萬億查詢基礎設施提供支持)都無法與 TPU 相提并論。
供應鏈: 谷歌與博通和臺積電合作,加速 v7 芯片的生產,以解決產能問題。到 2026 年第二季度,TPU 的供應量應該能夠滿足需求,從而消除市場采用障礙。
目前的勢頭對谷歌有利。隨著 v7 TPU 在 2025 年量產,以及博通 / 臺積電等合作伙伴加速生產,供應鏈正在逐步完善。隨著推理能力的激增,TPU 的應用也將隨之擴展。
2025 年人工智能工作負載中 TPU 與 Nvidia GPU 的比較
對于所有人工智能工作負載,TPU 都比 Nvidia GPU 更好嗎?
不。TPU 在推理和張量密集型操作方面表現出色,在運行 LLM、圖像生成和推薦等模型時,性價比比 GPU 高出 4 倍。Nvidia GPU 在訓練各種模型、需要靈活性的研究以及游戲、圖形渲染和通用計算等非張量工作負載方面仍然更勝一籌。最佳策略通常是混合使用:TPU 用于生產推理,GPU 用于實驗。
我可以在 Google Cloud 之外使用 TPU 嗎?
目前,TPU 主要通過 Google Cloud Platform 提供,但大型企業客戶(例如 Meta 的 2027 年計劃)也開始采用本地部署方案。Nvidia 在 AWS、Azure 和本地部署方面的廣泛可用性仍然是多云戰略的優勢。不過,Google 正在通過合作伙伴關系和托管選項來擴展 TPU 的訪問權限。
英偉達的 Blackwell 芯片能否在推理方面與 TPU 展開競爭?
英偉達的 Blackwell 架構(預計 2025 年發布)承諾通過 FP4 精度和更高的內存帶寬等特性來提升推理效率。然而,早期基準測試和架構分析表明,由于 ASIC 芯片的專用性,TPU 在大規模純推理方面仍保持著 2-3 倍的成本優勢。Blackwell 架構將比 Hopper(H100)更具競爭力,但可能無法完全彌補在高容量推理工作負載方面的差距。
從英偉達平臺遷移到 TPU 的成本和時間是多少?
遷移需要將代碼從 CUDA/PyTorch 適配到 TensorFlow/JAX,大型部署通常需要 2-6 個月,具體時間取決于模型復雜度。成本包括工程時間(大型遷移需要 4-8 個全職員工月)以及過渡期間的并行基礎設施。然而,像 Midjourney 這樣的公司可以通過持續節省 40-65% 的成本,在 3-4 個月內收回這些成本。規模較小的項目(每月推理成本低于 5 萬美元)可能不值得投入這些額外費用。
TPU 如何處理自定義 AI 模型和架構?
TPU 在標準架構(Transformer、CNN、RNN)上表現出色,但對于自定義操作則需要重新編譯。JAX 的 XLA 編譯器可以自動處理大多數情況,但對于特殊架構可能需要優化。英偉達的 CUDA 為實驗性工作提供了更大的靈活性。最佳實踐:先在 GPU 上進行原型設計,待架構穩定后再針對 TPU 優化生產模型
那么,像 AMD 或 Intel 芯片這樣的 GPU 替代方案,用于人工智能推理又如何呢?
AMD 的 MI300 和英特爾的 Gaudi 芯片面向相似的市場,但在生態系統成熟度和規模化應用方面略遜一籌。AMD 的產品相比英偉達的產品可節省 30-40% 的成本,但其效率仍不及 TPU。英特爾的 Gaudi 芯片展現出一定的潛力,但目前量產部署有限。展望 2025-2026 年,TPU 仍然是推理優化領域相對于英偉達的最佳選擇,其他方案則作為備選。
結論:TPU 驅動的人工智能世界即將到來
英偉達憑借訓練技術的輝煌歷史建立起了龐大的計算帝國,但推理才是未來,在這個領域,英偉達的架構優勢正在逐漸消失。谷歌的 TPU 擁有四倍的性價比,正吸引著 Midjourney(成本降低 65%)、Anthropic(100 萬顆芯片)和 Meta(數十億美元的談判)等巨頭。
https://www.ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025
https://www.investing.com/news/stock-market-news/alphabet-could-see-billions-in-added-revenue-from-tpu-sales-morgan-stanley-says-4383972?utm_source=chatgpt.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.