網易首頁 > 網易號 > 正文申請入駐

老外用不起GPT，全跑來“薅”中國大模型的羊毛了

2026-03-01 08:43:07　來源: 鈦媒體APP

北京舉報

分享至

文 | 超聚焦

大模型正在從“比拼智商”，變成一門“進廠打螺絲”的生意。

據財聯社報道，OpenRouter最新周度數據顯示，平臺前十模型總token量約8.7萬億，中國模型獨占5.3萬億，占比61%。

而當周token調用量前三模型均為國產大模型，分別為Minimax M2.5、Kimi K2.5、GLM-5，調用量環比上周分別變動增加197%、下降20%、增加158%。

其中，MiniMax M2.5以2.45萬億token空降榜首，Kimi K2.5以1.21萬億緊隨其后，智譜GLM 5和DeepSeek V3.2分列第三、第五。

要知道，作為全球最大的大模型API聚合平臺，OpenRouter匯聚了全球開發者的真實調用需求，它的榜單堪稱目前AI行業最硬核的“算力消耗晴雨表”。

看到國產大模型如此瘋狂地“屠榜”，很多人的第一反應肯定是：難道在絕對能力上，國內大模型已經趕上GPT、Claude和Gemini了嗎？

答案顯然是否定的。如果真要死磕極度復雜的邏輯推理或硬核的代碼工程，硅谷這幾家閉源巨頭依然是當下絕對的技術天花板。

那么，既然絕對智力并沒有趕上北美頂尖模型，那為什么偏偏是國內大模型跑滿了全網的調用量？對未來的AI競爭格局又意味著什么？

01 大模型不是煉金術而是流水線

國內大模型企業，正在用義烏做小商品的邏輯，降維狙擊硅谷的賽博魔法。之所以中國大模型能夠在Openrouter上“屠榜”，唯“便宜”爾。

過去，大模型的定價權在海外巨頭手中。以GPT-4o或Claude 3.5 Opus為例，能力強，但價格也高。處理百萬Token的數據，通常需要花費幾美元甚至十幾美元。

在AI爆發的嘗鮮期，這個價格大家咬咬牙也就接受了。可一旦邁入Agent時代，情況徹底變了。

最近在科技圈鬧得沸沸揚揚的“OpenClaw封禁事件”，就是這場算力成本危機的最直觀切面。

作為一款爆火的開源AI智能體，OpenClaw能像“數字打工人”一樣接管電腦、全自動處理文件甚至寫代碼。為了省錢，許多極客和開發者想出了一個“絕妙”的方案：他們利用代碼接口，讓OpenClaw去“白嫖”谷歌和Anthropic每月20美元的個人包月訂閱服務（如Claude Pro），而不是老老實實去調用官方按量付費的昂貴API。

結果可想而知，當AI從“你問我答的聊天框”變成“自動規劃、反復執行的數字打工人”時，它在后臺每一次的搜索、試錯、糾錯和循環，都在瘋狂燃燒Token。這種Agent級別的恐怖吞吐量，直接把原本號稱“不限量”的包月服務給刷爆了。

面對被“薅禿”的算力資源，谷歌和Anthropic也坐不住了。他們不僅緊急下場，嚴禁第三方工具接入訂閱制通道，谷歌甚至對部分高頻調用的賬號祭出了“永久封禁”的終極殺招。

巨頭們這番“掀桌子”操作的核心邏輯其實只有一個：算力成本實在扛不住了。

在Agent時代，如果繼續放任大家用20美元的包月訂閱跑自動化任務，CSP巨頭也一定會破產；但如果逼著開發者去走官方API，按照每百萬Token十幾美元的價格計費，那么最先進的高價大模型就不再是先進生產力，而是成了一個吞噬利潤的無底洞，直接把無數AI應用和開發者的商業模式逼到了死角。

正是在大多數行業都陷入“用不起算力”的死局時，他們回頭一看，發現大洋對岸的中國大模型企業，已經把價格卷到了一個令人發指的地步。

目前，像DeepSeek、GLM、Kimi或者是MiniMax等國產優秀大模型，其API的調用價格已經被硬生生打到了每百萬Token只需要兩到三美元。

而有些廠商為了搶占開發者生態，更是對百萬級上下文或特定規模的模型實行長期的免費開放。這已經不是“打個八折”的促銷，而是數量級的成本斷層。

很多人可能會問：便宜固然好，但如果模型不夠聰明，便宜又有什么用？但事實卻是，絕大多數人高估了真實場景對“極限智商”的需求，卻低估了“長尾任務”對算力吞吐量的恐怖消耗。

在真實的商業世界和極客開發圈里，90%的AI任務根本不需要用到“愛因斯坦級別”的智商。

想象一下我們日常使用AI的場景：把一本十萬字的英文網絡小說翻譯成中文；丟給AI幾十個PDF財報讓它提取出所有的利潤數據；寫一段幾百行的前端基礎代碼；又或者是目前OpenRouter上消耗量極大的“角色扮演”——玩家和AI扮演的虛擬角色進行幾千輪的閑聊。

這些任務有一個共同特點：邏輯深度一般，但文本吞吐量巨大。對于這類“藍領型”的認知工作，排名前列的中國模型已經不僅是“及格”，而是做得非常出色。

這就好比你要給公司幾萬份快遞單號錄入表格，你完全沒有必要去花重金聘請一位諾貝爾獎得主（頂尖閉源模型），你只需要雇傭一批勤奮、踏實且工資極低的實習生（高性價比模型）就能完美解決。

更何況頂尖閉源模型與高性價比模型之間的差距，在蒸餾技術的存在下，兩者的差距最多只有半個身位。

因此，全球的開發者們極其理智地選擇了“智能路由”策略：把海量的、繁瑣的、容錯率高的基礎任務和長文本閱讀，全部路由給便宜的中國模型；只有到了需要做最終的復雜邏輯判斷，或者碰到了極難的算法題時，才會精打細算地調用GPT或Claude。

這，才是國內大模型能跑滿全網調用量的原因。

02 算力爭霸戰，變壓器才是底牌

便宜的大模型，從來都不是天上掉下來的餡餅。

很多人誤以為，國內大模型的白菜價是靠著國內廠商“燒錢補貼”砸出來的。但這其實低估了中國工程師在技術落地上的恐怖壓榨力。

當硅谷還在迷信“大力出奇跡”、瘋狂堆疊萬億參數時，國內大模型企業早就在“摳門”這門藝術上做到了登峰造極。

在這個賽道上，中國廠商展現出了極其恐怖的制造業基因和工程化壓榨能力。

眾所周知，受制于相關禁令，國內大模型企業往往無法像硅谷巨頭那樣，輕松買入數以十萬計的最頂尖GPU。在“算力貧窮”的逼迫下，國內工程師們別無選擇，只能硬生生地在工程優化的泥沼里進行極限微操。

為了降低單次推理的算力消耗，他們把MoE玩到了極致。

一個擁有上千億參數的龐大模型，在回答一個簡單的日常問題時，系統會精準地只激活其中幾十億參數的“專家網絡”，讓剩下的大部分網絡保持休眠。這就好比一個巨大的工廠，不再是為了生產一顆螺絲釘而讓所有車間燈火通明，而是精準控制產線，極大地節省了算力和電力消耗。

為了應對百萬級超長上下文帶來的顯存問題，中國工程師們在底層框架上死磕，對KV Cache進行像素級的壓縮和優化，把龐大的數據極其嚴密地打包塞進有限的顯存里，硬是在相對劣勢的硬件上，跑出了比肩甚至超越世界前列的超長文本處理能力。

這種對底層算力近乎變態的壓榨，加上國內極其成熟的硬件適配工程，硬生生把大模型推理的物理成本砍掉了幾個數量級。

相比之下，大洋彼岸的北美巨頭們就算想打價格戰，也是心有余而力不足，因為他們已經被沉重的物理基建徹底鎖死了。

在這個問題上，馬斯克早在2023年就給出了預言：“我的預測是，我們將從……今天的硅極度短缺變成……兩年內的電力短缺。這大致就是事情的趨勢。”

而現實也確實如此，北美老舊的電網系統和漫長的環評審批，根本無法支撐新建超大型數據中心的用電狂飆。昂貴的工業電價、奇高的人力運維成本，甚至有錢都買不到的高壓變壓器，最終全都化作了高昂的沉沒成本，均攤到了每一次的API調用里。

換句話說，北美頂尖大模型的“貴”，有一大半是替落后的基礎設施和高昂的本地要素買了單。

于是，當高昂的物理成本遇上全球對算力的無限需求，一個屬于中國AI的全新定位誕生了。

過去四十載，我們吃透了人口紅利和完善的供應鏈，成為了向全球輸出實體商品的“世界工廠”；而今天，隨著大模型進入應用落地的深水區，告別人口紅利的中國，正在依托著世界頂級的特高壓電網、極其穩定的低價工業電力，以及首屈一指的工程落地能力，轉型為新時代的“世界Token工廠”。

至此，未來的全球AI大分工已經非常清晰：那些海量的文檔精讀、初級代碼生成、高并發的長文本翻譯和虛擬人閑聊，統統會作為“賽博代工訂單”，順著海底光纜，源源不斷地路由給國內大模型集群。

電能一旦在AI芯片中被轉化為Token，它就徹底脫離了物理形態的束縛。它不像需要漫長的港口裝卸和遠洋貨輪運輸的產品，而是以光速通過海底光纜，在毫秒之間傳輸到世界的每一個角落。

因此，與其說是全世界的極客跑來“薅”國內大模型的羊毛，不如說是中國正在以絕對的成本與基建優勢，悄然接管AI應用時代的底層命脈。

當硅谷巨頭們還在為摘取AGI的終極王冠不計代價地燒錢、深陷物理基建的泥沼時，國內大模型企業已經化身為新時代的“基建狂魔”，用這源源不斷、跨越山海的廉價Token，穩穩當當地做起了全球智能革命最不可或缺的“水電煤”生意。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.