![]()
最近,OpenAI又傳出購買芯片的消息,但采購對象卻并非英偉達或谷歌。
據了解,這筆訂單落在了晶圓級芯片公司Cerebras身上,協議總金額超過100億美元、對應最高約750兆瓦算力容量,并將分階段在2026—2028年落地。
眾所周知,長期以來,OpenAI的核心訓練體系一直建立在英偉達GPU之上。但最近一段時間里,OpenAI一直在嘗試把算力“雞蛋”放進多個籃子里。
去年6月,有媒體披露稱OpenAI計劃通過Google Cloud租用芯片,為包括ChatGPT在內的產品提供部分推理算力。
這一算力供應策略上發生變化背后,是美國AI產業的兩大陣營相互作用下的結果:一邊是以英偉達為核心的GPU生態,另一邊是近年來崛起的谷歌陣營TPU(谷歌自研的AI專用加速芯片)生態。
在大模型爆發初期,英偉達幾乎是算力的唯一中心:從訓練到推理,從芯片到CUDA生態,行業別無其他選擇。
但在過去兩年,這種“絕對核心”地位開始松動。一方面GPU供給長期緊張、價格高企;另一方面超大模型推理負載激增,催生對專用加速器與替代架構的現實需求,也為其他算力路線留下切口。
在這一背景下,谷歌的TPU路線逐漸成型。通過把TPU與Gemini、VertexAI的節奏深度綁定,谷歌逐步搭建起一套“從芯片到模型、云服務”的一體化供給體系。?
Cerebras則是OpenAI在兩大陣營之外插入的一枚籌碼:它主打晶圓級芯片的技術路線,主打低延遲推理與特定負載的吞吐優勢。這家公司也一直被各路機構視為美股潛在IPO標的。
在英偉達和谷歌兩大陣營的“楚河漢界”之間,頭部AI企業們在“站隊”與“合作”間不斷交錯。
01
兩大基座陣營,既要“合縱”也要“連橫”
盡管在AI算力版圖出現了“兩大陣營”分化的現象,但在過去一年里,英偉達仍是市場的絕對主力:IDC在2025年二季度的統計顯示,英偉達在AI算力廠商份額占比約85.2%。
只是在AI產業中,“盟友”與“敵人”的界限往往并不清晰,但仍能在頭部企業身上,窺探到一絲生態上的偏好。
英偉達的主力合作伙伴中,微軟和AWS(亞馬遜云服務)持續把英偉達新品作為云端算力主力;與此同時,谷歌也在加速把TPU打造成更“可遷移”的選項,并通過改進對PyTorch等主流框架的支持、與包括Meta在內的企業/開發者社區協作,降低外部使用門檻。
以微軟為例,根據Omdia的估算,2024年微軟采購了約48.5萬塊英偉達Hopper系列GPU,幾乎是其競爭對手的兩倍之多,顯示出它在AI基建領域與英偉達的緊密關系。
![]()
2025年11月,微軟與數據中心運營商IREN簽署了一份約97億美元的合同,其中包括大約58億美元的英偉達GB300芯片與相關設備,用于進一步擴展Azure的AI計算能力。
不止云廠商,一眾大模型企業也是英偉達的基本盤,馬斯克此前曾表示xAI的Colossus超算在2025年已部署約20萬塊英偉達GPU,用于訓練Grok系列模型,并計劃進一步擴容。
不過,盡管英偉達的GPU體系雖然市場份額高達八成以上,但其高成本與軟件生態鎖定,也讓一些頭部用戶開始尋求新的供應鏈渠道。
另一邊,谷歌TPU在某些推理與訓練場景上擁有更低成本的優勢,并且與云服務深度整合,這使得市場近年來對其興趣不斷增長。
幾周前,曾有媒體披露Meta正在評估在2027年后引入谷歌自研芯片的可能性,相關合作規模或達數十億美元,這使TPU有機會成為英偉達之外的一個重要替代樣本。
類似的選擇也出現在Anthropic身上。去年10月,Anthropic宣布將大幅擴大與Google Cloud的合作,計劃利用多達一百萬顆TPU芯片、總價值達到數十億美元的算力資源,來訓練和服務下一代Claude模型,并預計在今年實現超過1吉瓦的計算能力上線。
Google Cloud CEO庫里安稱,“Anthropic大幅擴大使用TPU,反映了團隊多年來在使用TPU時觀察到的強勁價格性能比和效率。”
不過,Anthropic和谷歌的合作離不開資本面背景。谷歌既是Anthropic的早期投資者,也是其最重要的云算力提供方之一。公開信息顯示,谷歌已累計向Anthropic投資超過30億美元,持有約14%股權。
Anthropic CFO Krishna Rao此前曾表示:“Anthropic與Google有長期伙伴關系,這次擴展有助于持續增長定義前沿AI所需的算力。”
通過加大對TPU的使用,Anthropic在成本與算力供給上獲得更高確定性,同時也加深了與谷歌在云基礎設施層面的長期合作關系。
不過,AI產業版圖中,即使是資本合作伙伴之間,也可能出現產品和業務上的競爭。字母AI在近期的《爭奪AI制高點,谷歌和Anthropic必有一戰》一文中曾總結,“如果Anthropic利用谷歌的TPU訓練出了遠超Gemini的模型,那谷歌在應用層的競爭將變得更加困難。”
正是在這一現實之下,“合縱連橫”開始成為AI基建格局中的關鍵邏輯。算力層面,面對英偉達在GPU與生態上的長期主導,谷歌以TPU、云服務和資本關系拉起穩定合作網絡,模型公司也借此獲得更可控的算力與成本,此為“合縱”。
但這種結盟并不會延伸到產品前臺。進入模型與應用層,競爭重新回到零和博弈:Gemini、Claude、ChatGPT在前端要面臨正面廝殺,“連橫”隨之出現,即在基礎設施上交錯合作,但在產品上又各自為戰。
英偉達與谷歌兩大陣營并存,恰恰放大了這種合縱連橫的結構。不過,說起這一版圖的形成以及兩條路徑之爭的起源,還要追溯到AI爆發前的10年。
02
GPU與TPU之爭,源自“前AI時代”
在生成式AI成為全球焦點之前,英偉達已提前十余年布局算力生態。
2006年CUDA發布,使GPU首次成為可被通用編程調用的并行計算平臺,開發者得以繞開硬件細節直接釋放算力潛能。隨后,PyTorch、TensorFlow等主流框架相繼圍繞CUDA構建,GPU也從圖形加速器演變為AI訓練與推理的事實標準底座。
CUDA的價值不止“讓GPU可編程”,更在于打造了獨家軟件生態這一壁壘。
英特爾前CEO帕特·基辛格,在去年接受采訪時直言,英偉達真正的護城河在于“CUDA以及NVLink這樣的軟件和互連體系”,而不僅僅是單一代GPU的性能優勢。
這一體系優勢在2012年迎來爆發點,多倫多大學的Alex Krizhevsky等人利用兩塊英偉達GPU在ImageNet挑戰賽上訓練出AlexNet并一舉奪魁,展示了大規模神經網絡與GPU并行計算結合的巨大潛力,成為行業關注的里程碑事件。
但在深度學習浪潮爆發的同時,大規模神經網絡對算力效率和能耗也提出新要求。此時,谷歌意識到,依賴通用GPU在大規模推理和訓練時,存在著成本高且功耗大等問題。
于是,從2015年起,谷歌開始研發TPU——一種面向神經網絡推理負載的定制芯片。彼時的目標還不是今天的通用AI計算,而是支撐搜索、翻譯和廣告等核心業務中的深度學習模型,在數據中心內以更低能耗、更穩定時延完成大規模推理任務。
2018年,谷歌將TPU正式引入Google Cloud,對外開放使用,試圖證明TPU在云端的現實價值。ResNet-50等模型的測試數據顯示,TPU上訓練可顯著縮短時間并降低成本,使原本需要數天的任務在更短周期內完成。
不過,在幾年后的生成式AI爆發初期,英偉達迅速成為了那個最大贏家。2020—2022年,大模型訓練從研究走向工程化,A100等GPU憑借成熟的軟件生態和穩定供給,成為各大云廠商和模型公司的默認選擇。
TPU的轉折點,出現在算力需求持續放大之后。2023年起,隨著大模型推理負載激增、電力與成本壓力上升,谷歌TPU因在單位能耗和價格性能比上的優勢開始受到行業重視,逐步獲得更廣泛采用。
字母AI在此前的報道《AI在美國“與民爭電”》中曾披露,AI數據中心的驚人能耗,已經迫使美國AI企業親自下場,投身能源基礎設施建設。因此,TPU的能耗和成本優勢,無疑是吸引諸多AI企業用戶的重要因素。
另一方面,為降低開發者遷移門檻,谷歌近年明顯加大了TPU的軟件生態投入。去年,曾有多家外媒披露,谷歌正推進代號為TorchTPU的內部項目,核心目標是提升TPU對PyTorch的原生支持能力。
據了解,該項目與Meta的需求密切相關,部分軟件組件可能開源,以縮小TPU與英偉達GPU在主流開發環境中的使用差距。
事實上,以谷歌為代表的TPU生態的發展,一定程度上也宏觀層面,對沖了英偉達一直占據絕對主導地位的擔憂。
“讓一家企業成為全球AI未來的守門人是危險的,會帶來嚴重的經濟風險。”美國參議員伊麗莎白·沃倫,曾這樣呼吁美國司法部啟動對英偉達反壟斷調查。
尤其對于OpenAI這樣的頭部模型公司而言,“合縱聯橫”的算力格局,無疑比依賴單一技術路線更具戰略彈性。
03
OpenAI的“搖擺”和“押注”
在大模型爆發期,OpenAI就與對英偉達的算力體系緊緊捆綁在一起。公開信息顯示,在GPT-3時代,OpenAI曾動用約3,600臺HGXA100服務器、近3萬塊英偉達GPU進行訓練。
這種緊密的關系一直持續到今天,去年年底,OpenAI宣布和英偉達展開新一輪合作,計劃部署至少10吉瓦的英偉達算力系統,這些系統將包括數百萬塊英偉達GPU,用于訓練并運行下一代模型。首批算力預計將在今年下半年上線。
不過,這種緊密捆綁背后,OpenAI也在探索“去中心化”的舉措。尤其是隨著近年來模型規模與推理負載急劇上升,新的算力供給路徑迫在眉睫。
去年6月,有媒體披露稱OpenAI開始通過Google Cloud租用TPU,為包括ChatGPT在內的產品提供部分推理算力,希望借此降低推理成本。這是OpenAI首次計劃批量使用非英偉達芯片。
![]()
OpenAI發言人隨后稱“公司目前僅處于對部分谷歌TPU的早期測試階段,尚無計劃進行大規模部署。”
但這份相對克制的回應,仍難以掩蓋OpenAI尋求供應鏈平衡的意圖。Forrester高級分析師Charlie Dai此前指出,OpenAI開始測試TPU,反映出“隨著推理成本不斷上升,AI提供商正嘗試在英偉達GPU之外,尋找更具成本控制能力的專用方案”。
而在幾個月后,OpenAI在10月宣布與AMD簽署協議,將在未來幾年部署最高6吉瓦的AMD GPU資源,計劃從今年下半年開始落地,進一步做實了上述觀點。
時間來到2026年初,近期,Cerebras也被納入OpenAI的算力“雞蛋籃”。外媒報道稱,雙方簽署了一項多年期協議,總額超過100億美元,對應最高750兆瓦算力,并將分階段交付至2028年。
OpenAI在公告中由高管Sachin Katti發言,稱其算力策略是構建一個“Resilient Portfolio”(有韌性、抗風險的算力組合),按不同負載匹配不同系統;在這一組合中,Cerebras以“低時延推理”能力發揮補位作用。
值得關注的是,在技術路線上,Cerebras走的是另一條路:把整片硅晶圓直接做成一顆“晶圓級芯片”(WSE-3)。
Cerebras一顆芯片面積約4.6萬平方毫米,是英偉達主流數據中心GPU(約800平方毫米)的數十倍,集成約4萬億晶體管和90萬個核心,并將計算與存儲高度集中在同一器件內,從而減少GPU集群中常見的跨卡通信瓶頸。
而在資本層面,這樁合作背后有一個無法忽視的背景:OpenAI首席執行官奧特曼,此前以個人身份投資過Cerebras。
另一邊,OpenAI的布局并未止步于引入外部算力替代方案。去年以來,多家外媒披露OpenAI已在內部組建芯片團隊,并與博通展開合作,推進自研AI加速器芯片,研發重點是圍繞自身模型體系,優化推理負載與系統級效率。
奧特曼曾在和博通的合作公告中表示:“通過開發我們自己的加速器(芯片),可以將我們在最前沿模型和產品設計中學到的經驗直接嵌入硬件,從而釋放更強大的能力。”
而在谷歌TPU和其他供應商之間的搖擺,一定程度上也映射出OpenAI對于谷歌這位競爭對手態勢的警惕。
蘋果在近期宣布與谷歌達成多年合作,將用Gemini模型升級Siri與Apple Intelligence。毫無疑問,這一合作將強化谷歌在與OpenAI競賽中的位置,鞏固其在移動端AI入口的生態影響力。
更長遠地看,美國AI算力產業格局并非單純的陣營間的商戰,而是一條可跨越的“楚河漢界”。在基礎設施層,英偉達與谷歌分別構筑起兩套穩定運轉的算力基座,成為企業繞不開的長期投入方向。
但這條“界線”并不意味著割裂。對模型公司而言,算力是必須“合縱”的底座,而產品與模型競爭才是真正的戰場。越是頭部玩家,越需要在底層結盟、在上層博弈。
作為模型側的頭部玩家,OpenAI的多路徑布局,正是這一現狀的縮影:既要依托英偉達的強大生態,但也不能持續單點依賴。同時開始布局自研算力,為下一輪算力與模型競賽預留空間。
2026年,美國AI產業的“楚河漢界”之間,“合縱連橫”的戲碼仍將繼續上演。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.