最近,SemiAnalysis放出了一份堪稱(chēng)“GPU云天梯圖”的報(bào)告,把全球AI云玩家排了個(gè)座次。
看完這個(gè)榜單,我只能說(shuō):天下大亂了。
![]()
有意思的是,SemiAnalysis這套評(píng)級(jí)體系,不看云規(guī)模有多大、算力有多少,而是看↓
①是否能快速購(gòu)買(mǎi)/開(kāi)通GPU實(shí)例;
②是否針對(duì)AI大模型訓(xùn)練推理有優(yōu)化;
③是否提供可編程API;
④是否價(jià)格透明;
⑤是否面向全球開(kāi)發(fā)者可訪問(wèn)。
這樣的評(píng)估原則,讓我們清楚滴看到:在大模型訓(xùn)練、推理和智能體業(yè)務(wù)的井噴需求下,云服務(wù)正在悄悄洗牌,傳統(tǒng)大云多年的規(guī)模優(yōu)勢(shì)已經(jīng)被打破了。
01、最新排名:誰(shuí)贏了GPU云之戰(zhàn)?
這排名很刺激,把提供GPU云服務(wù)的廠商,從白金、黃金、白銀、青銅,再到“不推薦(Not Recommended)”,分了三六九等↓
★尊貴鉑金★
CoreWeave,獨(dú)一檔存在。
是不是對(duì)很多人來(lái)講,這個(gè)名字很陌生?
![]()
這家公司以前是干挖坑的(主要是以太坊),現(xiàn)在轉(zhuǎn)行AI算力,專(zhuān)為AI訓(xùn)練/推理場(chǎng)景打造,硬件+軟件棧都為大規(guī)模GPU任務(wù)優(yōu)化。
GPU資源豐富、延遲低、調(diào)度智能、開(kāi)發(fā)者體驗(yàn)炸裂。
現(xiàn)在基本成了AI初創(chuàng)公司的標(biāo)配。(不過(guò),國(guó)內(nèi)IP是被屏蔽訪問(wèn)的)
★榮耀黃金★
Oracle、Nebius、Azure、Crusoe、FluidStack。
甲骨文這“老登”竟然重上了黃金檔,真是逆襲。
甲骨文OCI支持高性能裸金屬GPU(N卡A卡)+RDMA網(wǎng)絡(luò),低延遲、高吞吐,訓(xùn)練效率優(yōu)秀。
另外定價(jià)透明,且對(duì)AI初創(chuàng)有針對(duì)性合作優(yōu)惠。
而微軟Azure則是傳統(tǒng)大云里排名最靠前的,與OpenAI合作最深,GPU節(jié)點(diǎn)覆蓋廣(北美、歐洲、亞太),高端GPU供應(yīng)穩(wěn)定。
其他“黃金”玩家,都是生面孔。
★秩序白銀★
Together.ai、Lambda、Google Cloud、AWS、Firmus、GMO、Tensorwave、Scaleway、Vultr、Voltage Park、GCore。
想不到吧,云大佬AWS、GCP竟然跌到了第三陣營(yíng)。
GCP的主要問(wèn)題是加速器以TPU為主,生態(tài)封閉,GPU資源有限。
老大哥AWS的GPU型號(hào)最全,不僅有N卡還有自研的T卡。但更多資源內(nèi)耗給Bedrock和SageMaker了,算力資源不夠開(kāi)放且價(jià)格昂貴。
★倔強(qiáng)青銅★
Hyperstack、Qubrid、Runpod、Hot Aisle、Buzz HPC、Prime Intellect、Vast.ai、Atlas Cloud、Denvr、DigitalOcean
銅牌陣營(yíng)更多是“性價(jià)比玩家”。
GPU便宜但穩(wěn)定性一般,適合跑短期任務(wù)、demo、或者RAG服務(wù)。
★“戰(zhàn)五渣”陣營(yíng)★
這一堆,被歸為不推薦(Not Recommended),但又分為兩檔。
第一檔叫做不能打(UnderPerforming):能跑,但是體驗(yàn)太差,不推薦生產(chǎn)使用。
第二檔叫做不可用(Unavailable):宣傳有,但實(shí)際根本租不到。國(guó)內(nèi)第一大云阿里云就被放在這一檔。
SemiAnalysis的測(cè)試結(jié)論是:
“阿里云在海外控制臺(tái)無(wú)法創(chuàng)建任何AI GPU實(shí)例,因此被標(biāo)記為 Unavailable。”
這里面原因大家都能懂,并不是阿里云的GPU實(shí)例真不可用,而是被三類(lèi)場(chǎng)景鎖死:①通義、百煉自用②白名單大客戶專(zhuān)享,不在公網(wǎng)開(kāi)放③受出口管制影響。
02、四大陣營(yíng),各有各的道
SemiAnalysis還給出了另外一張格局圖,根據(jù)各家服務(wù)商的“出身”,再次進(jìn)行了點(diǎn)評(píng)。
![]()
★傳統(tǒng)云老炮兒★
微軟Azure、AWS、GCP、OCI。
他們有錢(qián)、有GPU、有生態(tài),但架構(gòu)偏封閉、部署周期長(zhǎng)、GPU調(diào)度僵硬。
★強(qiáng)勢(shì)云新貴★
CoreWeave、Lambda Labs、Crusoe、Nebius,四小龍。
這幾家是最近兩年爆紅的新勢(shì)力,全棧為 GPU 計(jì)算設(shè)計(jì),從底層就是為 AI 訓(xùn)練/推理而生。
靠「靈活計(jì)費(fèi)+訓(xùn)推優(yōu)化+GPU實(shí)例現(xiàn)貨+更懂AI開(kāi)發(fā)者」一路逆襲,服務(wù)AI團(tuán)隊(duì)、模型創(chuàng)業(yè)公司。
★垂直流量小鮮肉★
從HyperStack、Fluidstack、FastGPU、Voltage Park,到Brev、TensorDock、Scaleway……
這些新興廠商聚焦垂直場(chǎng)景,價(jià)格低、上卡快、API友好,是他們的武器。
★專(zhuān)屬特供咖★
像中國(guó)的阿里華為騰訊、日本的SoftBank、瑞典的6G AI Sweden、阿聯(lián)酋的G42、韓國(guó)SK Telecom、德國(guó)的Deutsche Telekom。
他們更像「國(guó)家隊(duì)」,主打算力自主、安全合規(guī)、本地部署,GPU主要內(nèi)部專(zhuān)供。
★中間商賺差價(jià)★
典型的入Vast.ai、Prime Intellect、Shadeform、NetMindAI、Akash Network 等。
這些廠商不直接造云,而是做“GPU市場(chǎng)平臺(tái)”,他們就像GPU界的滴滴:一端連接閑置GPU算力;一端對(duì)接AI用戶和訓(xùn)練任務(wù)。
03、全球只需5朵云的時(shí)代,結(jié)束了
根據(jù)SemiAnalysis的報(bào)告,過(guò)去一年,開(kāi)發(fā)者在部署AI推理/訓(xùn)練任務(wù)時(shí),越來(lái)越多地選擇CoreWeave、Lambda、Voltage Park這類(lèi)新貴。
AI開(kāi)發(fā)者不再需要通用云,而需要GPU足、成本低、調(diào)度快、服務(wù)好的更純粹的AI云。
這些新貴更懂AIGC、RAG、LoRA微調(diào),甚至Agent框架。
此時(shí),AWS們反而顯得笨重而昂貴。
大云們多年來(lái)都是圍繞虛機(jī)、容器、數(shù)據(jù)庫(kù)生態(tài)構(gòu)建的,面對(duì)新需求只能補(bǔ)丁式適配,從原來(lái)架構(gòu)上拼接GPU集群,而不是顛覆式重新設(shè)計(jì)。
比如,CoreWeave的GPU調(diào)度系統(tǒng)是專(zhuān)為 PyTorch / JAX / DeepSpeed 等分布式框架優(yōu)化的, 而AWS的EFA網(wǎng)絡(luò)延遲仍然是瓶頸。
同時(shí),AI云不再只是商業(yè)競(jìng)爭(zhēng),而是科技主權(quán)的戰(zhàn)場(chǎng)。
每個(gè)有點(diǎn)Power的國(guó)家都想要「自己的GPU、自己的AI云、自己的大模型」,這種想法不止于中、美。
我只能說(shuō),傳統(tǒng)大云一統(tǒng)天下的時(shí)代已經(jīng)翻篇,云市場(chǎng)的碎片化不可逆,「這個(gè)世界只需要5朵云」的神話,徹底破滅。
而屬于「算力新江湖」的故事,才剛剛開(kāi)始。
▎參考文獻(xiàn):https://newsletter.semianalysis.com/p/clustermax-20-the-industry-standard?_gl=1*141mn8g*_ga*MzAxMTk3OTgzLjE3NjI1ODYwMjQ.*_ga_FKWNM9FBZ3*czE3NjI2NTc2MDUkbzIkZzAkdDE3NjI2NTc2MDUkajYwJGwwJGg2NTUxMDczNDY.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.