![]()
摘要:
算力短缺,已經是AI賽道“房間里的大象”。
鳳凰網科技 出品
作者|路春鋒
編輯|董雨晴
4月8日凌晨,DeepSeek悄悄上線了一種新的分層模式界面:在網頁版/App中出現了“快速模式(Fast)”和“專家模式(Expert)”兩個入口,同時還有一個帶圖標的“視覺模式(Vision)”選項正在灰度測試。
![]()
圖|Deepseek網頁版截圖
新的功能分工十分明確:快速模式面向日常對話和低延遲響應;專家模式針對復雜推理和深度任務,可能觸發更長推理時間但響應慢;而視覺模式則開啟了圖像輸入等多模態能力,不過鳳凰網科技檢索發現,被灰度到視覺模式的人非常之少。
外界普遍認為,這是為即將發布的新一代V4模型做的功能和體驗預熱。但相比發新模型,當前的分級制度或許更值得關注,作為一種“按需調用算力”的調度機制,就是將簡單任務交由低成本路徑處理,僅在必要時啟用高算力推理,從而減少無效Token消耗,實現整體成本的結構性下降。
![]()
大模型公司的算力焦慮
大概在一周前,Anthropic宣布自4月5日起,旗下大模型Claude的訂閱服務將不再覆蓋包括龍蝦在內的第三方集成工具。用戶如想繼續使用該模型,只能通過與訂閱服務分開計費的按需付費方案,并為此支付額外費用。
背后的邏輯非常好理解,隨著黃仁勛在GTC大會上高呼Token經濟學。全球科技大廠一時間把token消耗量變成了考核標準,更有國內的互聯網大廠拉了月度token消耗排行,唯token消耗論甚囂塵上。
據Anthropic表述,訂閱制的定價模型原本是基于“個人用戶正常使用強度”設計的,而OpenClaw這類自動化代理工具的使用強度遠超預期——有重度用戶每月僅支付200美元訂閱費,卻消耗了價值5000美元的算力資源,給Anthropic帶來了巨大的成本壓力。
小米AI負責人、前DeepSeek核心成員羅福莉對這個理念進行了拆解,認為Anthropic終于走出了天坑。其在社交平臺X上發布長文,認為全球算力供給已經跟不上Agent創造的token需求增速。真正的出路不是更便宜的token,而是“更高token效率的Agent框架”疊加“更強大高效的模型”之間的協同進化。
據行業數據顯示,截至2026年3月,中國AI大模型日均Token調用量已突破140萬億,較2024年初增長超千倍。
羅福莉算了一筆賬:按API定價折算,這類框架的真實成本大概是訂閱價格的數十倍。她覺得這一差距“不是缺口,而是天坑”。
![]()
更值得國內AI公司注意的是,Anthropic在4月7日宣布,其年化收入(ARR)突破300億美元,正式反超OpenAI的250億美元。
從2025年底的90億到如今300億,其僅用三個多月就實現了233%的爆發式增長,即便如此,Anthropic仍在算一筆精細的賬。
在羅福莉看來,Anthropic封殺“龍蝦”的真正價值在于:讓效率低下的成本真實可見,從而倒逼整個生態走向工程自律。短期陣痛不是壞事,它會推動框架開發者認真改進上下文管理、最大化prompt緩存命中率、削減無效token消耗。
![]()
發新模型眼下可能沒那么重要
DeepSeek R1最初的驚艷,原本也是架構的創新,極大的實現了token的節約。當時,低價token的源頭雖然是DeepSeek,但其本意從來不是為了價格戰,只是后來者把這種創新完成了價格戰游戲。
2025年初的爆紅,也讓DeepSeek幾度面臨容量不足的窘迫,時常宕機。
在第一撥大規模用戶涌入后,曾有DeepSeek內部人士告訴鳳凰網科技,因為當時資源不夠,所以用戶看起來被限制了使用次數,后來內部通過優化方法,重新分配資源。
但這種內部架構的創新已經難以滿足當前的token調用需求。
國金證券在研報中指出,算力供需正在發出關鍵信號——需求端以指數級膨脹,供給端卻受限于芯片出口管制與成本約束,難以同步擴張。
免費模式,成了這場危機的加速器。大模型運營成本極高,免費模式讓平臺算力擴容始終滯后于用戶增長。
在2026年開年以來,DeepSeek已經上演了至少7次大規模服務中斷。3月29日晚至30日上午,平臺再度突發全局崩潰,網頁端與APP端同時無法使用,宕機時間持續約12小時,直至次日9時13分才恢復正常。
或許是壓力之下,DeepSeek在4月8日低調更新了對話界面,在輸入框上方新增了“快速模式”和“專家模式”選項。在行業人士看來,分層設計既可以通過算力分流緩解峰值壓力,也能為后續搭建付費體系、限額限流鋪路。
不久前,OpenAI宣布下線Sora,將有限的算力資源重新聚焦于核心服務,與DeepSeek開啟分層、Anthropic的高峰限流措施共同揭示了一個現實:需求增速已遠超基礎設施的擴張能力。
![]()
AI賽道的“房間里的大象”
從DeepSeek的免費模式難以為繼,到Anthropic的封殺令,再到羅福莉的價格戰警告,這些看似獨立的事件共同指向同一個結構性矛盾:AI賽道的token用量正在以指數級速度膨脹。
海外的AI數據中心大手筆搶購存儲芯片,再向華爾街開出賬單,猶如一場沒有盡頭的賭注游戲。
實際上,不止是芯片,電力危機也在疊加:AI算力耗電占全社會用電量增速的46%,遠超整體6.1%的增長水平,電力彈性不足成為硬約束。
在這種背景下,行業正在經歷一場從“免費燒錢換用戶”到“算力精細化運營”的范式切換。阿里云、騰訊云早前已啟動算力漲價,最高漲幅達34%。但說起來是漲價,實際也只不過是把之前價格戰時期的優惠給抹掉了,恢復了正常定價。
4月8日,在智譜發布旗艦開源模型GLM-5.1之際,再度提價10%,此前其已經進行過兩次提價。
如果說過去兩年,大模型行業的關鍵詞是“規模”和“速度”,那么現在,關鍵詞已經悄然變成了兩個字:成本。
即便是像OpenAI和Anthropic這樣的海外明星企業,目前都還處于高投入階段,算力、人才、基礎設施等等開支巨大。在持續依賴融資的同時,它們都必須回答一個現實問題:這門生意什么時候能自我造血?
于是,行業開始出現一個明顯轉向:當AI開始賺錢,第一步不是賺更多,而是少虧一點。
以OpenAI為代表的一類玩家,選擇的是更激進的路線:產品快速迭代、能力優先、生態開放,同時通過持續融資維持擴張節奏;而以Anthropic為代表的另一類,則明顯更克制,把重點放在成本結構、穩定性和企業服務上,通過工程優化來提升效率。
兩者的差異,可以簡單理解為:一個是“先做出來再說”,一個是“先算清楚再做”。
這種變化,對普通用戶其實也會產生直接影響。
首先,API價格未必會像很多人預期的那樣持續大幅下降。雖然單位價格在降低,但成本控制的壓力并沒有消失,企業更可能通過優化結構,而不是無限降價來消化成本。
其次,免費額度和補貼可能逐步收緊。過去依賴“燒錢換增長”的階段正在結束,當每一個Token都需要被精確計量時,慷慨的免費策略本身就變得不可持續。
再次,在體驗層面,用戶也可能感受到變化:模型回復會更克制、更精簡;長文本、復雜推理或高頻調用,可能被更嚴格地限制或分層定價。你看到的“更短回答”,背后往往不是模型變“懶”,而是系統在主動做成本優化。
從某種意義上說,Token被省下來的那一刻,成本并沒有消失,而是被重新分配——在模型廠商、企業客戶與終端用戶之間流動。
說到底,AI正在完成一次從“實驗品”到“商品”的轉變。大模型從來不是純技術問題,而是一門重資產生意。當增長神話退去,算賬就成為最核心、最現實、也最無法回避的問題。
這,才是“摳Token”背后真正的行業邏輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.