![]()
2月,中國AI的模型調用量爆發式增長,首次超過美國。
全球最大的AI模型API聚合平臺OpenRouter數據顯示,9日~15日這周,中國模型以4.12萬億Token的調用量,首次超過同期美國模型的2.94萬億Token。
16日~22日這周,中國模型的周調用量進一步沖高至5.16萬億Token,三周大漲127%,而同期美國模型調用量跌至2.7萬億Token。與此同時,全球調用量排名前五的模型中,中國模型占據四席,這股強大的增長動能,并非依賴單一爆款產品,而是中國AI廠商集群式崛起。
Token是AI模型處理文本的最小單位。相比用戶數,Token調用量是更能真實反映AI模型使用強度、用戶粘性及商業價值的關鍵指標。
中國模型廠商,正憑借快速迭代和成本優勢占領全球市場,國產算力需求正經歷指數級增長。
![]()
榜單洗牌:中國Token調用量首超美國,四款大模型霸榜
OpenRouter平臺,匯聚了全球數百種大語言模型,擁有超過500萬開發者用戶,是目前全球最大的AI模型API聚合平臺。因此,其API調用量數據被視為洞察全球AI應用落地趨勢最真實的“晴雨表”,因為它直接反映了開發者“用腳投票”的選擇,體現了模型在實際應用中的受歡迎程度和競爭力。
值得注意的是,該平臺的用戶主要由海外開發者構成,其中美國用戶占比高達47.17%,而中國開發者僅占6.01%,這使得其榜單數據更能客觀反映中國AI模型在全球范圍內的真實吸引力。
![]()
《每日經濟新聞》記者(以下簡稱每經記者)梳理OpenRouter數據發現,全球大模型Token調用量在過去一年經歷了驚人的爆發式增長。2025年3月3日至9日當周,該平臺前十大模型的周調用量僅為1.24萬億Token。而到2026年2月中旬,這一數字已飆升至13.95萬億Token,短短不到一年時間增長了超過10倍。
2025年,美國模型是市場增長主要動力,其Token周調用量一度占據平臺前十大模型總量的近七成,而同期的中國模型占比則不到兩成。然而,進入2026年,美國模型的增速開始顯露疲態,而中國模型則開啟了“狂飆”模式。
數據顯示,2026年2月的第一周(2日至8日),中國模型的周調用量已躍升至2.27萬億Token,發出了強烈的追擊信號。
僅僅一周之后,在2月9日至15日當周,中國模型便以4.12萬億Token的驚人調用量,正式超越了同期美國模型的2.94萬億Token,實現了歷史性趕超。
這股勢頭并未就此停止,到2月16日當周,中國模型的周調用量更是沖高至5.16萬億Token,三周時間調用量增長127%,將領先優勢進一步擴大。
這股強大的增長動能,并非依賴單一爆款產品,而是中國AI廠商集群式崛起。
![]()
2026年2月16日至22日的周榜單顯示,平臺調用量排名前五的模型中,有四款來自中國廠商,分別為MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM-5以及DeepSeek的V3.2。這四款模型合計貢獻了Top5總調用量的85.7%。
具體來看,MiniMax于2026年2月13日發布的M2.5模型,上線不足一周便迅速登頂周調用量榜首。在2月9日至15日當周,OpenRouter平臺總調用量激增的3.21萬億Token中,僅M2.5這一款模型就貢獻了1.44萬億Token的驚人增量。
![]()
月之暗面于1月27日發布的Kimi K2.5模型,憑借其原生的多模態架構和強大的Agent并行處理能力,調用量實現了連續跳漲。該模型能調度多達100個“Agent分身”并行工作,將復雜任務處理效率提升3到10倍。據媒體報道,Kimi在發布Kimi K2.5后不到一個月的累計收入,已超過其2025年全年的總收入,增長主要由全球付費用戶及API調用量大漲共同推動。
智譜的旗艦模型GLM-5自2月12日發布后,憑借其200K的超長上下文窗口和對長程Agent任務的深度優化,用戶規模迎來高速增長,其調用量在上線次周便增長至0.8萬億Token。
過去一年,阿里千問雖單個模型上榜頻次不高,但a16z與OpenRouter聯合發布的報告顯示,其全系列模型總Token調用量以5.59萬億位居全球第二,僅次于DeepSeek(14.37萬億)。
咨詢公司弗若斯特沙利文(Frost & Sullivan)報告顯示,在中國大模型B端市場,2025年下半年,千問(Qwen)系列模型的日均Token調用量占比32.1%位列第一,相較上半年的17.7%幾乎翻倍,相比字節豆包(21.3%)、DeepSeek(18.4%)領先優勢擴大。
對于中國AI大模型的格局,上海財經大學特聘教授胡延平在接受每經記者采訪時提出了“AI中國團”的說法。
他認為,產業市場集中度并非越高越好,有多家頭部企業形成寬廣的技術產業群落,而不是少數兩三家寡頭,對于競爭創新和人才生態建設是好事,也有利于在中美AI競爭中形成集群優勢。
知名風險投資機構Andreessen Horowitz(a16z)的合伙人Martin Casado觀察到,如今在硅谷尋求融資的AI初創公司中,其路演核心模型高達80%使用中國的開源模型。
競爭力:成本不到美國AI的1/10,中國Token為何便宜?
中國模型之所以能在短時間內席卷全球開發者,除了性能上比肩甚至超越國際頂尖模型外,其極具競爭力的成本是另一個無可爭議的核心優勢。
以OpenRouter平臺公示的價格為例,中國模型的成本優勢一目了然。
在模型處理輸入信息(Input)的環節,MiniMax的M2.5與智譜的GLM-5,其價格均為0.3美元每百萬Token。作為對比,海外主流的對標產品Claude Opus4.6的價格則高達5美元/百萬Token,是中國這兩款模型的約16.7倍。
在模型生成內容(Output)的環節,成本差異更為懸殊。MiniMax M2.5的輸出價格為1.1美元/百萬Token,智譜GLM-5為2.55美元/百萬Token,而Claude Opus4.6的價格則飆升至25美元/百萬Token,分別是前兩者的約22.7倍和9.8倍。
![]()
如此巨大的成本差距,直接決定了開發者在選擇API時的經濟考量。
這種顯著的成本差異,首先源于算法層面的架構創新。
弗若斯特沙利文中國總監李慶在接受每經記者采訪時分析指出,以“混合專家(Mixture-of-Experts, MoE)”架構為代表的技術路線,是中國模型能夠大幅降低推理成本的核心原因之一。目前,包括榜單上的DeepSeek、阿里巴巴的通義千問3.5-Plus等模型,都已廣泛采用了MoE架構。
MoE架構的巧妙之處在于,它將一個巨大的模型拆分為多個相對較小的“專家網絡”和一個“門控網絡”。盡管模型的總參數量可能非常龐大(如擁有數千億參數),從而保證了其“知識儲備”和能力上限,但在實際處理一個任務時,門控網絡會智能地判斷該任務的性質,并只激活(調用)其中一小部分最相關的專家網絡參與計算。
這種“按需激活”而非“全體動員”的模式,相較于傳統的稠密模型(每次計算都調用全部參數),極大地減少了計算量和對硬件資源的需求。數據顯示,采用MoE架構可以直接讓推理時的顯存占用降低60%,推理吞吐量(單位時間內處理的Token數量)提升高達19倍。這種從技術源頭上實現的降本增效,是其成本優勢的根本來源。
除了算法架構的革新,中國AI廠商還在積極探索“垂直整合”的路徑,以進一步壓縮每一個Token背后的成本。這條路徑的核心思想,是將上層的模型算法、中層的云計算基礎設施和底層的AI芯片進行深度的、一體化的協同設計與優化,從而解決軟硬件之間的適配痛點,榨干每一分算力。
李慶以阿里巴巴的“通義-云-芯”體系為例進行說明,這種從上到下的垂直整合模式,能夠通過極致的算力調度算法,實現對底層硬件資源的最高效利用,從而大幅降低了AI服務背后的基礎設施成本。這種系統級的優化,使得Token的生成成本得以進一步降低。
摩根大通在其研報中對中國市場做出極為樂觀的預測,預計從2025年到2030年,中國Token消耗量的年復合增長率將達到驚人的330%,在短短5年間實現370倍的增長。
價值質變:Token正從互聯網“流量”,成為AI時代的“燃料”
Token消耗量的指數級攀升,表面看是用戶規模與使用時長的增長,但其背后更深層次的驅動力,是用戶對AI使用模式的根本性轉變。AI的角色正在從一個提供簡單信息、進行日常閑聊的“問答工具”,進化為能夠深度參與工作流、處理復雜任務的“生產力工具”。
國聯民生證券在近期發布的研報中,提出了“Token通脹”這一概念。這并非指Token本身變貴,而是指在單位時間內、單位用戶的Token消耗結構性上升。報告將這一現象歸因于三大核心趨勢。
首先,用戶的核心需求正在從淺層的“問答”轉向深度的“干活”,即越來越多地利用AI來重構代碼、改寫文件、生成文檔和跑測試。編程場景天然具有“長上下文、多輪迭代、大量輸出”的特征,會大量消耗Token。
其次,AI Agent技術的興起和普及,放大了Token的消耗。Agent會主動規劃、檢索、執行、反思,多次調用模型,Token消耗自然按步驟累加。
最后是推理強度上升。更多深度思考、更長鏈路推理會顯著提高輸出與中間過程的Token消耗。但對開發者而言,這往往帶來更高成功率與更少返工,用戶反而愿意“增加Token投入來換取效率”。
這一系列轉變,意味著Token不是傳統互聯網時代邊際成本幾乎為零的“流量”,而是執行生產任務時必不可少的“燃料”。
這一趨勢與全球頂尖芯片制造商的判斷不謀而合。英偉達CEO黃仁勛在2月26日的業績電話會上,反復向市場強調一個核心觀點:“計算即收入”“推理即收入”。他指出,沒有算力,就無法生成Token;沒有Token,就無法帶來收入增長。在AI時代,推理性能直接決定了客戶的收入能力,而推理的核心,正是高效地生成可被商業化的Token。在全球數據中心電力瓶頸日益凸顯的今天,“性能/瓦特”(Performance per Watt)已成為衡量AI服務效率與收入能力的關鍵指標。
李慶向每經記者表示,AI服務的商業模式正從過去單純的“按量計費”,向“燃料+成果”的混合模式演進。一方面,作為“燃料”的Token,其單價會隨著技術進步和規模效應持續下降;另一方面,隨著AI從“問答”工具向“干活”的生產力工具轉變,企業將更愿意為直接的“成果”付費,這將催生出更多基于訂閱制的商業模式。
李慶還預測,未來AI服務的定價將不可避免地走向高度定制化和靈活化。她表示,Agent時代的到來意味著任務的復雜度千差萬別,單一的定價模式將無法覆蓋所有商業需求。未來,計算消耗、調用頻次、任務是否涉及多步推理或規劃等高成本操作,都將成為影響定價的因素,一個多維度、動態的定價體系將成為主流。
記者|宋欣悅
編輯|肖勇 王嘉琦 高涵
視覺|劉青彥
排版|高涵
統籌|易啟江
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.