![]()
10月底,有168年歷史的美國《大西洋月刊》發(fā)布了一篇文章,題為《人工智能的崩盤將如何發(fā)生》,作者為Matteo Wong和Charlie Warzel。
文章中描繪了一幅可怕的景象:
首先,是美國正在成為一個“英偉達(dá)國家”,近些年美國經(jīng)濟(jì)的繁榮,有92%都是由注入人工智能的巨額資金驅(qū)動的。
其次,這個天文數(shù)字般的資金,僅僅只是在不同的巨頭之間“空轉(zhuǎn)”,制造繁榮的假象。
在作者看來,無論人工智能在未來成功還是失敗,都將引來巨大的動蕩。
要么是一個不需要人類的未來,人類失去工資,僅靠銀行里的余額生活。要么是一個史無前例的巨大泡沫。
人工智能,是近幾年來全球經(jīng)濟(jì)最大的“宏大敘事”,算力成本的瘋漲,數(shù)據(jù)中心建設(shè)的巨額投資,為人類是上最大規(guī)模的資金空轉(zhuǎn)提供了信用背書。
半個世界的資本在下注,如滾雪球一般的擴(kuò)大這個敘事,為了規(guī)模而追求規(guī)模,如同一場21世紀(jì)的大躍進(jìn)。
與此同時,巴菲特的持倉降到了歷史低點,日本首富孫正義清空了英偉達(dá)的股票。近年來風(fēng)頭極勁的“硅谷風(fēng)投教父”彼得·蒂爾也在7-9月賣光了英偉達(dá)的全部持股。
那么,這個敘事崩盤的導(dǎo)火索,會在哪里呢?
![]()
十倍之差
11月6日,月之暗面發(fā)布了新一代模型“Kimi K2 Thinking”。除了它的性能,可以比肩一眾美國前沿的AI模型,引發(fā)了熱議外,還因為同時曝出的這款新模型的訓(xùn)練成本——460萬美元,更是掀起了新的討論熱潮。這比年初DeepSeekV3披露的訓(xùn)練成本560萬美元,還要更低。
在美國,一個大型AI大語言模型的訓(xùn)練成本,動輒要花幾千萬美元、幾億算力小時,與中國最成功的AI大語言模型相比,成本往往能相差近10倍左右。
比如Kimi K2 Thinking這460萬美元的訓(xùn)練成本,就僅相當(dāng)于GPT-4訓(xùn)練成本的8%。
![]()
但在性能上,Kimi K2 Thinking、DeepSeekV3可一點也不弱,雖然比OpenAI的GPT確實要差點,但也沒像成本那樣差出近10倍。
以Kimi K2 Thinking為例,它在Humanity‘s Last Exam、BrowseComp等部分權(quán)威基準(zhǔn)測試中,取得了媲美甚至超越GPT-5和Claude 4.5等頂級模型的表現(xiàn)。
雖然,月之暗面創(chuàng)始團(tuán)隊最近有出面回應(yīng):“460萬美元不是官方數(shù)據(jù)。訓(xùn)練成本很難計算,因為其中很大一部分用于研究和實驗。”但這依然沒有否認(rèn)一個事實,中國最好的AI大語言模型訓(xùn)練成本,相比美國要低出一個數(shù)量級。
就在Kimi K2 Thinking發(fā)布后兩天,甲骨文宣布達(dá)成了一筆高達(dá)180億美元的數(shù)據(jù)中心融資交易。而在今年8月,OpenAI的CEO奧特曼則宣布,未來公司將投入數(shù)萬億美元夯實AI基建。
CNBC預(yù)計,到2027年,美國將在數(shù)據(jù)中心上投入近7000億美元,而相比之下,中國一眾AI玩家,包括阿里巴巴、騰訊、字節(jié)跳動和百度,合計預(yù)期投入不到800億美元。——兩者相差距近10倍,這和我們前面說到的中美兩國AI模型訓(xùn)練成本的差距相當(dāng)。
所以這就有個問題,為什么中美兩國AI大語言模型的成本會相差那么多,以及這到底意味著什么?
![]()
錢都花哪了
DeepSeekV3出現(xiàn)時,包括馬斯克、奧特曼在內(nèi),美國的AI界基本是不相信的,要么認(rèn)為中國的團(tuán)隊在訓(xùn)練成本數(shù)據(jù)上造了假,要么認(rèn)為DeepSeekV3玩“蒸餾”,或者技術(shù)上剽竊了美國,從而降低了成本。
直到DeepSeekV3團(tuán)隊,將一篇又一篇的原創(chuàng)論文共享出來,并逐步分享自己的訓(xùn)練方法,才逐漸讓美國那邊的專家和CEO們一個個啞口無言、目瞪口呆。
這次,Kimi K2 Thinking的發(fā)布,被認(rèn)為是又一次“DeepSeek時刻”。它也某種程度上,進(jìn)一步坐實了中美在生產(chǎn)同等性能的大語言模型時的成本差距。
所以Kimi K2 Thinking發(fā)布后,優(yōu)秀的性能得到迅速認(rèn)可的同時,已沒有人再去質(zhì)疑它的數(shù)據(jù)是否造假,以及技術(shù)上是否投機(jī)取巧了。
相反,大部分美國AI界從業(yè)者、投資者,已經(jīng)直接或間接承認(rèn),美國AI大語言模型訓(xùn)練成本虛高。也就是說,現(xiàn)在美國AI界已有共識,是自己的成本控制有問題。
只不過,這問題是怎么形成的,又該如何解決,目前還沒有個統(tǒng)一的答案,但顯然,靠詆毀和污蔑中國這個對手,是行不通了。
比如,Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf 發(fā)出靈魂拷問:“我們是否每隔幾個月就要經(jīng)歷一次‘DeepSeek 時刻’?”他也坦誠:“Kimi K2 Thinking發(fā)布后,已成為該平臺上最受開發(fā)者歡迎的模型。”
那么,如果承認(rèn)美國AI模型訓(xùn)練成本確實過高,那就有必要搞清楚,那些多出來的錢都花在哪了?我們來簡單捋一捋吧。
首先,美國AI模型訓(xùn)練成本,最大的一塊支出,明眼人都看得出來,就是GPU/TPU集群、服務(wù)器、網(wǎng)絡(luò)設(shè)備等硬件的巨額投入。
以英偉達(dá)A100 GPU為例,單塊售價約0.6-1.1萬美元,而訓(xùn)練GPT-4模型用了超過2.5萬塊GPU,如果全部采用采購而非租賃模式,光GPU采購成本就超過2.5億美元。
這還沒算配套服務(wù)器,一般每臺服務(wù)器搭載8塊A100 GPU,每臺服務(wù)器成本約20萬到30萬美元,我們?nèi)€中位數(shù)25萬美元/臺,訓(xùn)練GPT-4就需要3125臺服務(wù)器,約7.81億美元。
另外為了連接3125臺服務(wù)器進(jìn)行協(xié)同計算,需要超高速的InfiniBand網(wǎng)絡(luò)設(shè)備(交換機(jī)、線纜等)。這部分成本可能達(dá)到數(shù)千萬至一億美元,訓(xùn)練GPT-4估算為 $7500萬美元。
所以訓(xùn)練GPT-4總的硬件成本是GPU成本+服務(wù)器成本+網(wǎng)絡(luò)成本,簡單算一下吧:2.5億美元+7.81億美元+0.75億美元=11.06 億美元。
當(dāng)然,OpenAI的GPT-4采用云服務(wù)租賃模式,硬件購買成本主要由微軟承擔(dān),截至目前,微軟持有OpenAI約27%股份。
Meta為了訓(xùn)練Llama 4,采購了35萬枚H100芯片,即使考慮大宗購買優(yōu)惠,這也是一筆數(shù)十億美元的支出。H100芯片比A100芯片更優(yōu),當(dāng)然也更貴,大約為2.5萬到4.5萬美元/張。
更要命的,是現(xiàn)在硬件更新迭代非常快。AI芯片的生命周期僅2-3年(如V100→A100→H100),而大模型訓(xùn)練周期常常跨越硬件換代周期,導(dǎo)致設(shè)備提前報廢率超過40%。
最近就連微軟的CEO納德拉也抱怨,公司現(xiàn)在囤積了成堆的GPU芯片,卻因為缺電、缺空間,只能閑置在機(jī)房里。所以很有可能,大量GPU芯片還沒來得用,就過時了。
要知道,微軟是OpenAI的金主,主打一個不差錢。可現(xiàn)在,面對像流水一樣狂泄不止的訓(xùn)練成本,也開始有點肉疼了。
其次,電耗成本下不來。
大模型訓(xùn)練是名副其實的"耗電巨獸"。以GPT-4類模型為例,其完整訓(xùn)練周期的能耗約為700-1000 MWh,相當(dāng)于約10000戶美國家庭一個月的用電量,直接電力成本約10-15萬美元。
GPT-3單次訓(xùn)練耗電1.287GWh,相當(dāng)于120個美國家庭年用電量。
耗電意味著發(fā)熱,所以又要冷卻,而冷卻系統(tǒng)能耗同樣驚人。實際上,冷卻系統(tǒng)能耗,占整個數(shù)據(jù)中心總電費的約40%。冷卻需要淡水,微軟數(shù)據(jù)中心訓(xùn)練GPT-3直接耗水約70萬升,相當(dāng)于40000人一天的飲水量。
為了冷卻,Meta將數(shù)據(jù)中心設(shè)在北極圈附近,微軟嘗試過海底數(shù)據(jù)中心。——我們國家現(xiàn)在有“東數(shù)西算”工程,就是將數(shù)據(jù)中心布局在氣候涼爽、清潔能源豐富的西部地區(qū),比如貴州。總之,一冷一熱都是錢。
再者,是訓(xùn)練數(shù)據(jù)成本也很高。
訓(xùn)練AI模型,需要大量“投喂”內(nèi)容數(shù)據(jù)。可數(shù)據(jù),并不是免費的,尤其是優(yōu)質(zhì)內(nèi)容數(shù)據(jù)。而這也就是為何,像《華盛頓郵報》《紐約時報》都說要告包括OpenAI在內(nèi)的一眾AI公司,原因就是他們偷了人家記者辛辛苦苦花了巨大成本撰寫的優(yōu)質(zhì)內(nèi)容。
而且,英文互聯(lián)網(wǎng)上高質(zhì)量、無重復(fù)、合規(guī)可用的文本數(shù)據(jù)總量約為3-5萬億詞元,而當(dāng)前AI大模型的訓(xùn)練已使用了其中大部分。這就又出現(xiàn)了"數(shù)據(jù)枯竭"現(xiàn)象,導(dǎo)致每增加一單位優(yōu)質(zhì)數(shù)據(jù)的邊際成本呈指數(shù)級增長,高質(zhì)量專業(yè)領(lǐng)域數(shù)據(jù)的獲取成本已從2020年的每百萬詞元5-10美元上升至2024年的50-100美元,增幅達(dá)10倍。
數(shù)據(jù)成本,還有一塊是數(shù)據(jù)標(biāo)注成本。數(shù)據(jù)標(biāo)注就像是教AI認(rèn)世界的“家庭教師”。它通過給原始數(shù)據(jù)貼上各種標(biāo)簽,讓AI模型能夠理解和學(xué)習(xí)這些數(shù)據(jù),從而變得“聰明”起來,通常包括數(shù)據(jù)集設(shè)計、數(shù)據(jù)清洗、標(biāo)注、質(zhì)量檢驗等多個環(huán)節(jié)。
可以簡單理解為,人工智能也不能自己吃飯長大,有些飯,還得靠專家先“嚼爛”了喂給它。
以人類反饋強(qiáng)化學(xué)習(xí)(RLHF)為例,高質(zhì)量的偏好對比數(shù)據(jù)集構(gòu)建,通常需要專業(yè)知識和嚴(yán)格質(zhì)控,平均標(biāo)注成本為每條對比數(shù)據(jù)2-5美元。
ChatGPT訓(xùn)練過程中使用的人類反饋數(shù)據(jù)集成本,估計超過700萬美元,占其初期訓(xùn)練總成本的12-15%。不便宜了。
還有,AI人才成本也高得離譜。
OpenAI頂級研究員年薪達(dá)200-300萬美元,超過華爾街投行MD薪資水平。谷歌DeepMind團(tuán)隊人均研發(fā)成本120萬美元/年。
就這么貴了,AI界的人才,各大公司還頻頻開出天價工資搶著要。而這種軍備競賽式的人才儲備,更進(jìn)一步推高了人才成本。
比如,為了得到24歲AI研究員馬特·戴特克,Meta開出4年2.5億美元的薪酬包,其中首年1億美元。還有蘋果基礎(chǔ)模型負(fù)責(zé)人龐若鳴,也被Meta開出的2億美元的薪酬包挖走。2025年6-7月,Meta還從OpenAI挖走至少11名核心研究人員,包括多名華人科學(xué)家,并為部分研究員提供1億美元簽約獎金,并提出可達(dá)3億美元的四年總薪酬包。
除了上述顯而易見的成本外,其實AI模型訓(xùn)練,試錯成本也不容忽視,據(jù)說大模型訓(xùn)練失敗率約為35-50%,單次超參數(shù)調(diào)優(yōu)實驗消耗可達(dá)50-100萬美元。
另外,現(xiàn)在全球范圍內(nèi)對于模型訓(xùn)練數(shù)據(jù)都很敏感,所以要獲取的話,還得符合當(dāng)?shù)氐姆煞ㄒ?guī),為合理合法獲取、存儲和處理數(shù)據(jù),就需要花費額外成本,而且并以為這是小數(shù)目,據(jù)麥肯錫全球研究院估計,完整的數(shù)據(jù)合規(guī)體系建設(shè)與維護(hù)成本已占大型AI項目總成本的8-12%,且這一比例仍在上升。
總之,睜眼閉眼都是錢錢錢。
目前來看,AI模型昂貴的訓(xùn)練成本,一時半會下不來就算了,在未來可見的范圍內(nèi),甚至還會呈幾何數(shù)增長。
比如Anthropic CEO就預(yù)測,他們公司目前正在訓(xùn)練的模型成本接近10億美元,但到2026年,這一成本可能飆升至50億或100億美元。未來三年內(nèi),AI模型的訓(xùn)練成本可能達(dá)到1000億美元。
到時候,一般的小公司就別想著玩了。甚至,一般的小國也別想玩了。
——前段時間,黃仁勛跑去韓國推銷AI芯片,而韓國人也很興奮,各種歐巴、拍照又喝交杯酒啥的。但很多人給他算過,就按目前AI大語言訓(xùn)練所需要的電力規(guī)模來看,如果真要搞,得花掉韓國整個國家1/10的電力。而且我們都知道,電力系統(tǒng)建了就要用,否則就浪費了。而AI訓(xùn)練的電力系統(tǒng)可不是一直開著的。換句話說,電力系統(tǒng)的沉沒成本非常高。所以總的來說,韓國人除非日子不想過了,才會去搞這玩意。
黃仁勛為啥老是憂心忡忡丟掉中國市場?因為老黃心里明白,AI這東西,大概率,未來也就中美兩國玩得起。
前段時間,他的一些話,弄得特朗普政府某些人有點不高興了。因為英國《金融時報》AI未來峰會上,他說"中國將贏得人工智能競賽"。
他為什么要說這話?他的說法,是西方現(xiàn)行的技術(shù)封鎖,只會“刺激中國的創(chuàng)新和規(guī)模”。當(dāng)然更重要的理由,他還是擔(dān)心美國的政策,阻礙他獲取中國市場。
不過他的話對特朗普政府沒啥用。他過去用了各種夸張的語言贊美特朗普,也沒用。特朗普就相信禁止最先進(jìn)芯片對華出口,就能拖住中國AI產(chǎn)業(yè)的發(fā)展。
![]()
成本為啥降不下來?
美國是個資本主義國家,有非常成熟的市場競爭機(jī)制,按理,成本高了,就一定會降下來的,但為什么AI大模型訓(xùn)練成本遲遲降不下來呢?
我們再簡單算算。
美國AI大模型訓(xùn)練成本如此之高,跟AI所獲得的收益,是極其不匹配的。
以O(shè)penAI為例,上半年營收43億美元,比2024年全年高出約16%,預(yù)計全年營收將達(dá)130億美元,但預(yù)計的凈虧損卻將超過200-250億美元。現(xiàn)在不賺錢倒沒事。據(jù)說他們內(nèi)部算過,到2029年,OpenAI實現(xiàn)盈虧平衡,2030年起產(chǎn)生正向現(xiàn)金流,屆時年收入目標(biāo)2000億美元。
但就這點收入,奧特曼卻承諾,OpenAI的目標(biāo)是到2033年確保250吉瓦的電力供應(yīng),總投資額約1.4萬億美元。為什么要這么承諾呢?因為沒電,就沒法訓(xùn)練AI大模型,而沒法訓(xùn)練AI大模型,未來的收入預(yù)期就沒法實現(xiàn)。
1.4萬億美元、250吉瓦,咱也不知道這算不算“畫大餅”,但有幾個數(shù)據(jù)可以對比下:
——奧特曼這個承諾,相當(dāng)于在8年內(nèi)將美國能源需求提升125倍,而這將超過印度目前的電力消耗量。
以2024年為例,中國去年新增發(fā)電容量429吉瓦,而美國僅新增51吉瓦。
所以中美電力差距不是縮小,是不斷拉大的。而奧特曼也急,OpenAI向白宮科技政策辦公室提交的一份長達(dá)11頁的文件就鼓勵美國政府每年建設(shè)100吉瓦的能源產(chǎn)能,也就是說將現(xiàn)在每年新增電力提高一倍。
根據(jù)美國能源信息署數(shù)據(jù),10吉瓦大約相當(dāng)于800萬美國家庭一年的用電量。所以如果按奧特曼那種電力提升速度的搞法,這算不算我們經(jīng)常說的“大躍進(jìn)”呢?大家可以自己去判斷。
但電力基礎(chǔ)設(shè)施跟不上,因為規(guī)模太大,本就一身債的美國政府必然有心無力,尤其像特朗普政府還不樂意去增加風(fēng)、太陽能等新能源投資,依賴石化能源,那這塊成本也就只能私企自己去承擔(dān)了。
——為什么AI大模型訓(xùn)練成本如此之高,可私企總是沒辦法降下來,其實電力基礎(chǔ)設(shè)施是最為核心的一點。
相對而言,中國的電力基礎(chǔ)設(shè)施是比較完善和充足的。
根據(jù)國家能源局發(fā)布的數(shù)據(jù),2025年上半年中國新增發(fā)電裝機(jī)容量達(dá)2.93億千瓦,其中可再生能源新增裝機(jī)2.68億千瓦,同比增長99.3%,約占新增裝機(jī)的91.5%。這是什么概念呢?根據(jù)最新數(shù)據(jù),日本的總發(fā)電裝機(jī)容量約為3億多千瓦。所以中國2025年上半年新增的裝機(jī)容量,幾乎就相當(dāng)于新增了一個日本規(guī)模的電力系統(tǒng)。充足的電力基礎(chǔ)設(shè)施,可以充分滿足企業(yè)用電,這塊成本將大大降低。
除了基礎(chǔ)設(shè)施成本外,美國AI私企成本降不下來,還有一個原因,是他們的AI市場,還真不是傳統(tǒng)意義上的充分競爭市場,其實現(xiàn)在,也就頭部那幾家企業(yè)在玩。
尤其是AI芯片,英偉達(dá)具有絕對主導(dǎo)地位,在全球AI芯片市場的份額超過80%,在高端AI訓(xùn)練芯片領(lǐng)域更是達(dá)到90%以上。
而且,英偉達(dá)通過CUDA軟件生態(tài),積累超過400萬開發(fā)者、2000個合作伙伴及1.5萬個優(yōu)化應(yīng)用,形成了"開發(fā)者-軟件-硬件"的閉環(huán)。
這也就是為何,AI企業(yè)的GPU/TPU集群的投入會居高不下。根據(jù)哈佛商學(xué)院的研究,這塊的市場壟斷導(dǎo)致了高達(dá)40-60%的超額利潤,這部分利潤實質(zhì)上是從AI創(chuàng)新主體向硬件供應(yīng)商的價值轉(zhuǎn)移。
而且,AI芯片貴了,用的起的企業(yè)就少了,這又創(chuàng)造出一道只有巨頭才能跨越的"算力鴻溝"。所以目前,美國也就只有谷歌、微軟、OpenAI等少數(shù)幾家公司擁有足夠的資金與技術(shù)實力開發(fā)前沿大模型,這導(dǎo)致市場進(jìn)一步呈現(xiàn)高度集中態(tài)勢。
初創(chuàng)企業(yè)難以與巨頭競爭,被迫轉(zhuǎn)向應(yīng)用層或細(xì)分市場,未來或有突破的,但目前是沒看到可以與上述原本就是互聯(lián)網(wǎng)“寡頭”對著干的。所以你說AI是一次技術(shù)革命,這可能不假,但大家也發(fā)現(xiàn)了,并沒有什么新玩家出現(xiàn)。——這跟當(dāng)年互聯(lián)網(wǎng)百花齊放的態(tài)勢,是完全不一樣的。
基礎(chǔ)設(shè)施、壟斷,導(dǎo)致企業(yè)成本下不來,這都是客觀上,還有一個主觀原因,是現(xiàn)在美國AI研發(fā),還有一種“軍備競賽”的風(fēng)氣。這是因為,大家都怕落在別人后面,都怕錯過一個時代。
像我們上面提到的AI企業(yè)在搶奪人才時的投入上的競賽,就是這方面的表現(xiàn)。其實各大企業(yè)不止搶人才,還搶著囤積英偉達(dá)的芯片呢?微軟CEO為何說有限芯片放倉庫里吃灰呢?有一部分原因,就是大家搶性能最好的芯片,就跟某些人搶拉布布一樣。
美國科技巨頭在AI領(lǐng)域的投入已經(jīng)達(dá)到了萬億美元級別。2025年,僅微軟、亞馬遜、谷歌和Meta這四家公司的AI資本支出就預(yù)計達(dá)到近4000億美元。
就這樣投入,各大科技公司還覺得不夠呢。現(xiàn)在美國這些企業(yè)的共識是,更大的風(fēng)險不是過度投資,是支出不足。扎克伯格就說過:"如果為實現(xiàn)AI AGI而投入的資金數(shù)額上判斷失誤,所要做的也無非就是進(jìn)行調(diào)整。"
可以預(yù)料,未來各大AI企業(yè)的投入是會越來越高的,而且“越高就越光榮”的氛圍也有了。就像某些貴婦去時尚名品店購物,只買貴的,越貴越好。
所以現(xiàn)在的情況是這樣的,美國在干AI,而AI也在干美國。未來,誰把誰干倒,還說不準(zhǔn)。國運之戰(zhàn)。
作者:肖申克,藍(lán)鉆故事主筆

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.