![]()
在英偉達(dá)GTC 2026大會(huì)上,英偉達(dá)CEO黃仁勛首次提出“Token經(jīng)濟(jì)學(xué)”。視覺(jué)中國(guó)/圖
在剛閉幕的AI行業(yè)風(fēng)向標(biāo)——英偉達(dá)GTC 2026大會(huì)上,英偉達(dá)CEO黃仁勛首次提出“Token經(jīng)濟(jì)學(xué)”:推理已成為AI最核心的工作負(fù)載,Token則是新的大宗商品。
過(guò)去兩年,大模型競(jìng)爭(zhēng)的核心敘事是模型能力:誰(shuí)更聰明,誰(shuí)在 ARC(推理基準(zhǔn))、SWE-Bench(軟件工程基準(zhǔn))這類(lèi) benchmark(基準(zhǔn)測(cè)試)上能拿更高分,誰(shuí)就更接近 AGI(通用人工智能)。參數(shù)規(guī)模、推理深度、復(fù)雜任務(wù)完成率,構(gòu)成了行業(yè)主要競(jìng)爭(zhēng)指標(biāo)。
一組來(lái)自面向AI應(yīng)用開(kāi)發(fā)者的全球大模型聚合路由平臺(tái)——OpenRouter的數(shù)據(jù),在海內(nèi)外都引起了關(guān)注。3月16日,其發(fā)布的數(shù)據(jù)顯示,中國(guó)大模型周調(diào)用量已連續(xù)兩周超過(guò)美國(guó)大模型。
3月9日當(dāng)周,全球模型Token調(diào)用量排名前十名中,公開(kāi)明確的中國(guó)模型占四席,并包攬前三名,分別是MiniMax M2.5、階躍星辰模型Step 3.5 Flash、DeepSeek V3.2,Kimi K2.5位列第九。中國(guó)模型Token周調(diào)用量約4.69萬(wàn)億,較上周的4.194萬(wàn)億環(huán)比上漲11.82%。相比之下,美國(guó)AI大模型周調(diào)用量為3.294萬(wàn)億Token,環(huán)比下滑9.33%。
OpenRouter的用戶(hù)主要由海外開(kāi)發(fā)者構(gòu)成。該平臺(tái)整合了包括GPT-4、Claude等二十余種主流大語(yǔ)言模型,提供統(tǒng)一的API(應(yīng)用程序編程接口)和交互界面。其核心功能包括多模型聚合、統(tǒng)一API調(diào)用、性能基準(zhǔn)測(cè)試、智能路由優(yōu)化及開(kāi)發(fā)者工具支持,支持按需付費(fèi)與部分模型免費(fèi)試用。由于每天處理海量真實(shí)調(diào)用,其LLM(大語(yǔ)言模型)排行榜已成為開(kāi)發(fā)者社區(qū)的重要參考。
在這場(chǎng)新的AI戰(zhàn)役中,包括芯片廠(chǎng)商、大模型廠(chǎng)商、算力供應(yīng)商在內(nèi)的多位業(yè)內(nèi)受訪(fǎng)者,均給出一致看法:“Token確實(shí)已經(jīng)開(kāi)始出海。”
Token出海,與中國(guó)多采用開(kāi)源大模型有關(guān)。
中國(guó)開(kāi)源模型是推動(dòng)全球模型開(kāi)源的重要力量。開(kāi)源模型開(kāi)放代碼與權(quán)重,可本地部署定制但技術(shù)門(mén)檻高;閉源模型僅開(kāi)放調(diào)用接口,易用穩(wěn)定但無(wú)法修改底層。
2025年12月5日,硅谷風(fēng)險(xiǎn)投資基金a16z和OpenRouter聯(lián)合發(fā)布了《人工智能現(xiàn)狀》報(bào)告,對(duì)近100萬(wàn)億的Token調(diào)用數(shù)據(jù)分析發(fā)現(xiàn):2024年末,中國(guó)開(kāi)源模型占全球所有模型使用量的比例僅為1.2%,而到2025年年中,這一比例最高近30%。
“中國(guó)開(kāi)源模型不僅質(zhì)量出眾,模型發(fā)布密集且迭代快速,其中阿里云的Qwen以及DeepSeek開(kāi)源模型在持續(xù)推動(dòng)全球大模型的技術(shù)競(jìng)爭(zhēng)。”
報(bào)告指出,對(duì)話(huà)和編程是全球開(kāi)源模型兩個(gè)最主要的用途,中國(guó)開(kāi)源模型使用量中,39%用于編程,33%用于對(duì)話(huà)。
據(jù)澎湃新聞報(bào)道,Kimi K2.5在2026年1月27日發(fā)布后不到一個(gè)月,近20天的累計(jì)收入已經(jīng)超過(guò)了2025年全年總收入。增長(zhǎng)的核心驅(qū)動(dòng)力來(lái)自海外開(kāi)發(fā)者和API調(diào)用,K2.5在OpenRouter平臺(tái)的調(diào)用量持續(xù)位居前列,直接帶動(dòng)了B端收入的暴漲,海外收入首次超過(guò)國(guó)內(nèi)。
對(duì)于開(kāi)發(fā)者而言,性?xún)r(jià)比始終是其關(guān)注的重要指標(biāo)。長(zhǎng)江證券的研報(bào)顯示,在輸入價(jià)格上,MiniMax -M2.5和智譜GLM-5都是0.3美元/百萬(wàn)Token,而Anthropic的Claude Opus 4.6是5美元/百萬(wàn)Token,是前者的16.7倍。
輸出端更夸張,MiniMax-M2.5 價(jià)格為1.1美元/百萬(wàn)Token,智譜GLM-5為2.55美元/百萬(wàn)Token,Claude Opus4.6 則為25美元/百萬(wàn)Token,分別是前兩者的約22.7倍和9.8倍。2月底剛出的阿里Qwen3.5,直接把百萬(wàn)Token價(jià)格打到0.8元,相當(dāng)于谷歌Gemini的1/18。
天數(shù)智芯副總裁宋煜告訴南方周末記者,電力和算力基礎(chǔ)設(shè)施確實(shí)是Token出海的底座,但真正決定競(jìng)爭(zhēng)力的,不只是低成本電力,還受到芯片與集群能力、模型能力以及開(kāi)源生態(tài)影響力的共同作用。
天數(shù)智芯作為中國(guó)首家實(shí)現(xiàn)訓(xùn)練和推理通用GPU芯片量產(chǎn)的企業(yè),被業(yè)界譽(yù)為“中國(guó)GPU四小龍”之一,剛剛于2026年1月登陸港交所。
宋煜進(jìn)一步稱(chēng),中國(guó)模型公司在開(kāi)源上的持續(xù)投入,已經(jīng)成為T(mén)oken出海的重要推動(dòng)因素——數(shù)千億參數(shù)級(jí)大模型的開(kāi)源,一方面顯著降低了全球開(kāi)發(fā)者和企業(yè)使用先進(jìn)模型的門(mén)檻,另一方面也放大了對(duì)推理服務(wù)、適配部署和持續(xù)調(diào)用的需求,從而進(jìn)一步增強(qiáng)了中國(guó)Token服務(wù)在全球市場(chǎng)上的推廣和使用。
![]()
2025年7月29日,上海,2025世界人工智能大會(huì)上,KIMI(月之暗面)國(guó)產(chǎn)大模型的展臺(tái)。視覺(jué)中國(guó)/圖
不過(guò),OpenRouter并不代表Token出海的全貌。
OpenRouter的主要用戶(hù)是全球個(gè)人開(kāi)發(fā)者、AI初創(chuàng)公司。開(kāi)發(fā)者用哪個(gè)模型,往往自己說(shuō)了算。在這個(gè)背景下,中國(guó)模型“便宜量又足”是絕對(duì)優(yōu)勢(shì)。
但海外的企業(yè)級(jí)市場(chǎng)更復(fù)雜。相較于個(gè)人開(kāi)發(fā)者,企業(yè)級(jí)市場(chǎng)對(duì)數(shù)據(jù)跨境流轉(zhuǎn)極為敏感,全球各國(guó)數(shù)據(jù)主權(quán)與隱私法規(guī)日趨嚴(yán)格(如歐盟GDPR、美國(guó)CCPA),安全與合規(guī)正在成為核心門(mén)檻。
董超供職于中國(guó)一家主流的大模型廠(chǎng)商,在他看來(lái),OpenRouter本身是個(gè)很小的平臺(tái),并不是各大模型的主力渠道。對(duì)于大部分模型公司來(lái)說(shuō),OpenRouter的Token消耗量,占比其實(shí)很少。真正的流量大頭是那些互聯(lián)網(wǎng)巨頭、大型的SaaS廠(chǎng)商。
這也是Token出海面臨的主要挑戰(zhàn),即如何滲透企業(yè)級(jí)市場(chǎng)。“海外大一點(diǎn)的公司想要使用國(guó)產(chǎn)模型,會(huì)優(yōu)先從亞馬遜或者微軟的云平臺(tái)上使用推理服務(wù)商的版本,而不是用中國(guó)服務(wù)器的版本。”董超說(shuō),這也是為什么不少?lài)?guó)產(chǎn)大模型企業(yè)選擇在海外建設(shè)自己的算力中心或者租用海外的算力的原因。
“短期來(lái)看,市場(chǎng)熱議的Token出海有營(yíng)銷(xiāo)的成分。”董超坦言,因?yàn)镺penRouter上消耗Token的數(shù)據(jù)可見(jiàn)且有排名,一些國(guó)產(chǎn)大模型廠(chǎng)商會(huì)在上面做營(yíng)銷(xiāo),花錢(qián)補(bǔ)貼海外的開(kāi)發(fā)者。
兩個(gè)月后,小米發(fā)布并開(kāi)源其自研大模型MiMo-V2-Flash,還宣布將原計(jì)劃于2025年12月底截止的免費(fèi)試用期將延長(zhǎng)至2026年1月20日。
“幾家大模型公司互飆起來(lái),均推出不同程度的限時(shí)免費(fèi)政策,都在爭(zhēng)第一。”董超稱(chēng),模型公司實(shí)際上沒(méi)有賺到錢(qián)。
據(jù)招股書(shū),從2022年至2025年上半年,3年半時(shí)間里,AI大模型智譜(02513.HK)累計(jì)收入6.85億元,而累計(jì)虧損超過(guò)62億元。另一家AI大模型企業(yè)MiniMax(00100.HK)情況類(lèi)似,2022-2025年,該公司年度虧損分別為7370萬(wàn)美元、2.69億美元、4.65億美元及18.7億美元,四年累計(jì)虧損約26.8億美元。
“目前我們測(cè)算下來(lái),Token定價(jià)基本上是貼著成本線(xiàn)進(jìn)行的。”一位為多家國(guó)產(chǎn)模型提供算力的服務(wù)商向南方周末記者證實(shí),低成本電力、模型能力是中國(guó)模型刷榜OpenRouter的重要原因,但與國(guó)內(nèi)某些互聯(lián)網(wǎng)大廠(chǎng)模型的低定價(jià)策略也不無(wú)關(guān)系,“他們?cè)跓X(qián)培養(yǎng)用戶(hù)的消費(fèi)習(xí)慣”。
大摩首席經(jīng)濟(jì)學(xué)家邢自強(qiáng)亦認(rèn)為,Token出海肯定是有空間的,但不能忽視地緣政治與安全考量。
在OpenRouter上,除了官方的大模型外,還有大量為國(guó)產(chǎn)模型提供推理服務(wù)的供應(yīng)商,他們亦會(huì)上線(xiàn)國(guó)產(chǎn)模型的優(yōu)化版本。比如美國(guó)的DeepInfra、AtlasCloud以及來(lái)自中國(guó)的硅基流動(dòng)等推理平臺(tái),主打?qū)W⒂趯?duì)芯片架構(gòu)、算法框架的軟件優(yōu)化,旨在實(shí)現(xiàn)比模型原廠(chǎng)更高效的推理服務(wù)。
一位大模型推理服務(wù)商告訴南方周末記者,該公司目前在OpenRouter平臺(tái)上線(xiàn)了DeepSeek、MiniMax等多款國(guó)產(chǎn)模型,為了應(yīng)對(duì)數(shù)據(jù)合規(guī)問(wèn)題,公司專(zhuān)門(mén)建立了國(guó)際站,算力由亞馬遜等海外的云服務(wù)商提供。
據(jù)南方周末記者統(tǒng)計(jì),上線(xiàn)OpenRouter的中國(guó)大模型中,第三方推理平臺(tái)占據(jù)絕大多數(shù)。以DeepSeekV3.2為例,共有9家提供商,除總部位于中國(guó)的DeepSeek外,其他8家提供商總部均來(lái)自海外,其中美國(guó)廠(chǎng)商有7家。
這意味著,當(dāng)海外用戶(hù)(尤其是歐美用戶(hù))通過(guò)OpenRouter調(diào)用DeepSeekV3.2時(shí),不少請(qǐng)求被路由到美國(guó)的服務(wù)器,由美國(guó)的GPU完成推理,通過(guò)消耗美國(guó)的電力產(chǎn)出Token。
巨大的Token消耗下,算力市場(chǎng)行情也水漲船高。
3月13日,騰訊云宣布對(duì)其智能體開(kāi)發(fā)平臺(tái)的部分模型計(jì)費(fèi)價(jià)格進(jìn)行調(diào)整,漲幅普遍超過(guò)400%。同時(shí),GLM 5、MiniMax-2.5、Kimi2.5三個(gè)模型結(jié)束限時(shí)免費(fèi)公測(cè),轉(zhuǎn)為正式商用服務(wù)并按量計(jì)費(fèi)。
硅基流動(dòng)創(chuàng)始人袁進(jìn)輝向南方周末記者分析,以前的Token價(jià)格戰(zhàn)主要原因是大模型推理需求還沒(méi)有起來(lái),算力過(guò)剩,大家就通過(guò)低價(jià)引流先把算力用起來(lái)。目前的情況是,推理需求暴漲,導(dǎo)致算力供給不足,用戶(hù)都在高價(jià)搶Token產(chǎn)能,“市場(chǎng)開(kāi)始轉(zhuǎn)向更真實(shí)的供需定價(jià)”。
國(guó)海證券提到,OpenClaw的Token需求高速增長(zhǎng),中國(guó)模型的成本優(yōu)勢(shì)進(jìn)一步顯現(xiàn),Token出海有望加速,長(zhǎng)期有利于國(guó)產(chǎn)算力出海,模型、云計(jì)算、CPU、存儲(chǔ)、AI芯片等環(huán)節(jié)有望受益。
“Token出海了,但國(guó)產(chǎn)算力目前暫時(shí)沒(méi)有做到。”一位國(guó)內(nèi)云廠(chǎng)商人士對(duì)南方周末記者說(shuō),英偉達(dá)CUDA生態(tài)已構(gòu)建起從編譯器、庫(kù)函數(shù)到上層框架的完整棧,并積累了海量的優(yōu)化算子、工具鏈和開(kāi)發(fā)者經(jīng)驗(yàn)。“高端算力集群和大模型的迭代路線(xiàn)幾乎完全綁定在H100/H200等芯片的生態(tài)上。”
他舉例,如果以DeepSeekV3.2為例,一臺(tái)H200大概能產(chǎn)生44萬(wàn)Token/每分鐘。
一位國(guó)產(chǎn)算力提供商告訴南方周末記者,英偉達(dá)H200芯片主要都被國(guó)內(nèi)大廠(chǎng)拿走了,第三方算力服務(wù)商只能去搶英偉達(dá)中國(guó)特供版H20。他還稱(chēng),云廠(chǎng)商的AI大模型競(jìng)賽爭(zhēng)分奪秒,訓(xùn)練效果更好、不用額外適配的英偉達(dá)芯片是它們長(zhǎng)期的第一選擇,不過(guò)寒武紀(jì)、百度昆侖芯已經(jīng)取得長(zhǎng)足進(jìn)展,但在制程、峰值性能、浮點(diǎn)精度、生態(tài)等方面仍需努力。
中國(guó)的模型公司也開(kāi)始主動(dòng)轉(zhuǎn)身,向國(guó)產(chǎn)算力靠近。
1月14日,一則來(lái)自全球AI圈的消息引發(fā)國(guó)內(nèi)產(chǎn)業(yè)界和資本市場(chǎng)關(guān)注:由智譜與華為聯(lián)合研發(fā)的多模態(tài)圖像生成模型GLM-Image,一舉登頂Hugging Face平臺(tái)Trending榜第一。不同于以往多數(shù)AI模型依賴(lài)國(guó)外芯片訓(xùn)練,GLM-Image從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練,全程跑在華為昇騰Atlas 800T A2芯片和昇思MindSpore框架上。
宋煜稱(chēng),芯片廠(chǎng)商如果能與頭部大模型公司更早、更深入合作,就能讓模型廠(chǎng)商基于自身算法演進(jìn)路線(xiàn),提前提出對(duì)硬件的要求,從而讓國(guó)產(chǎn)芯片更早支持關(guān)鍵特性,例如圍繞更低精度計(jì)算下的精度保持能力做前瞻性設(shè)計(jì)和優(yōu)化。
他進(jìn)一步解釋?zhuān)@一切的前提是國(guó)產(chǎn)算力基座本身必須足夠穩(wěn)定、可靠、高效,擁有持續(xù)演進(jìn)的生態(tài)和前置協(xié)同能力,不能讓模型廠(chǎng)商為了遷就底層生態(tài)短板而修改訓(xùn)練流程、犧牲效率,甚至放慢迭代節(jié)奏。“歸根結(jié)底,芯片要跟上模型演進(jìn),成為模型創(chuàng)新的加速器。”
![]()
2024年6月26日,蘇州,“東數(shù)西算”長(zhǎng)三角算力調(diào)度中心正式啟用。視覺(jué)中國(guó)/圖
業(yè)內(nèi)普遍認(rèn)為,單點(diǎn)技術(shù)的突破不足以贏得這場(chǎng)競(jìng)爭(zhēng),生態(tài)的協(xié)同,尤其是電力供應(yīng)日漸成為影響全球AI產(chǎn)業(yè)格局的關(guān)鍵因素。
“對(duì)算力中心行業(yè)來(lái)說(shuō),算力和電力始終是高度耦合的關(guān)系。”博大數(shù)據(jù)算力事業(yè)部副總裁白旭告訴南方周末記者,目前算力服務(wù)中85%以上的成本是GPU為代表的設(shè)備成本,而電力成本差不多占15%。隨著AI訓(xùn)練和推理需求快速增長(zhǎng),算力負(fù)載越來(lái)越高,電力已經(jīng)從成本因素逐漸變成決定數(shù)據(jù)中心布局的重要變量。
宋煜也認(rèn)為,隨著大模型推理逐步走向常態(tài)化和規(guī)模化,前期資本開(kāi)支會(huì)在長(zhǎng)期運(yùn)營(yíng)中被逐步攤薄,而電力、制冷、運(yùn)維等運(yùn)營(yíng)成本會(huì)越來(lái)越?jīng)Q定長(zhǎng)期競(jìng)爭(zhēng)力和定價(jià)能力。也正因如此,芯片降本的關(guān)鍵不只是降低功耗本身,還在于提升單位能耗下的有效產(chǎn)出,讓更多電力真正轉(zhuǎn)化為穩(wěn)定、可持續(xù)的Token輸出。
黃仁勛也在上述演講中提到,每一座數(shù)據(jù)中心都受電力限制,一座1GW(吉瓦,一種電力計(jì)量單位)的數(shù)據(jù)中心永遠(yuǎn)不會(huì)變成2GW,這是電力和土地決定的。在固定功率下,誰(shuí)消耗每瓦電力能產(chǎn)出的Token最多,誰(shuí)的生產(chǎn)成本就最低。
不少受訪(fǎng)者表示,美國(guó)模型目前雖然擁有頂尖的GPU,卻受困于高昂的電價(jià)和居高不下的硬件建設(shè)成本。
全球能源互聯(lián)網(wǎng)經(jīng)濟(jì)技術(shù)研究院研究員陳晨告訴南方周末記者,1990年代至2019年,美國(guó)的去工業(yè)化過(guò)程導(dǎo)致電力增長(zhǎng)動(dòng)力不足,電網(wǎng)擴(kuò)容緩慢。近幾年隨著美國(guó)人工智能浪潮下數(shù)據(jù)中心大規(guī)模擴(kuò)建以及部分制造業(yè)回流,又對(duì)電力系統(tǒng)穩(wěn)定性造成沖擊,“大量風(fēng)光新能源、儲(chǔ)能、數(shù)據(jù)中心等項(xiàng)目難以并網(wǎng)”。
據(jù)《經(jīng)濟(jì)參考報(bào)》3月16日?qǐng)?bào)道,大規(guī)模建設(shè)人工智能數(shù)據(jù)中心除可能引發(fā)地區(qū)供電緊張風(fēng)險(xiǎn)外,如果數(shù)據(jù)中心突然大量脫離電網(wǎng),所致電力需求驟降也將成為電網(wǎng)運(yùn)行的新威脅。
2024年7月和2025年2月,在數(shù)據(jù)中心集中的美國(guó)弗吉尼亞州,各有約70家和40家數(shù)據(jù)中心因高壓輸電線(xiàn)故障而突然脫離電網(wǎng),啟動(dòng)備用供電系統(tǒng)。這導(dǎo)致美國(guó)PJM聯(lián)合電網(wǎng)公司不得不迅速應(yīng)對(duì),調(diào)低電網(wǎng)供電量,以避免發(fā)電廠(chǎng)等基礎(chǔ)設(shè)施受損。
陳晨認(rèn)為,目前美國(guó)電網(wǎng)擴(kuò)容面臨著變壓器短缺、大規(guī)模輸電項(xiàng)目缺乏統(tǒng)籌規(guī)劃和審批程序漫長(zhǎng)等方面的挑戰(zhàn),導(dǎo)致中西部的風(fēng)能、太陽(yáng)能難以高效輸送到用電緊張的東、西海岸。
而中國(guó)過(guò)去幾十年持續(xù)投入電力建設(shè),建成了全球規(guī)模最大的電力系統(tǒng)和清潔能源供應(yīng)體系,更擁有全球唯一掌握特高壓核心技術(shù)、全套裝備、核心元器件及系統(tǒng)集成的自主可控完整的電力產(chǎn)業(yè)鏈。
中國(guó)信息通信研究院數(shù)據(jù)顯示,中國(guó)數(shù)據(jù)中心用電量正在快速增長(zhǎng)。2019—2024年,中國(guó)數(shù)據(jù)中心年度用電量從824億千瓦時(shí)增至1660億千瓦時(shí)。到2030年,這個(gè)數(shù)字最高可能達(dá)到8200億千瓦時(shí)——相當(dāng)于近九個(gè)三峽電站全年發(fā)電量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.